4

专访阿里云罗庆超:对象存储的过去、现在、未来

 2 years ago
source link: https://www.infoq.cn/article/yMVVwC2BMk13ZwUisIIS
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

专访阿里云罗庆超:对象存储的过去、现在、未来





专访阿里云罗庆超:对象存储的过去、现在、未来

发展到现在,数据湖越来越受企业重视,美国知名科技企业风投机构 A16Z 经过调查发现数据湖已成为现代化数据分析架构中的中流砥柱,处于数据分析架构的核心位置。HDFS 和对象存储都是可以用来构建数据湖的组件,但对象存储更能适应当前存算分离的发展趋势,所以越来越多的企业转向了对象存储,阿里的数据湖在 2019 年也从 Hadoop 生态转向了对象存储 OSS。

其实对象存储并不是一个新生事物,具有 20 多年的发展历史,那么这些年它有什么样的演变?在适应数据湖的过程中,又有哪些需要改进的地方呢?未来有什么样的发展趋势?为解答这些问题,InfoQ 采访了阿里云对象存储负责人罗庆超。

采访嘉宾简介:罗庆超,阿里巴巴资深技术专家,阿里云对象存储负责人,在企业存储和云存储领域有丰富的技术与产品经验。曾就职于世界 500 强以及知名跨国公司的存储团队,负责过高端存储阵列的数据路径架构设计和开发,作为海量存储首席架构师负责文件存储、对象存储以及下一代分布式云存储的架构设计和实现,同时在灾备以及数据管理领域亦有多年开发和运维经验。带领技术研发团队,多次在大规模商业项目中成功落地。毕业于电子科技大学计算机系统结构专业,并获得硕士学位,在相关技术研究领域,支持并参与多本行业专业书籍的编写工作,被授予包括块存储、文件存储、对象存储、数据湖等方向 30 多项发明专利,技术成果成功应用到产品创新迭代。《对象存储实战指南》图书作者。QCon 上海 2021“明星讲师”,QCon 北京 2022“数据湖存储底座”专题出品人。

InfoQ:您在存储行业工作多年,对象存储从 90 年代就开始出现了,是否能解释下这些年对象存储技术的主要演变?

罗庆超:对象存储并非近期出现的新技术,它具有 20 多年的历史,大致可以分为 3 个阶段

  • 从专有云的存储技术到产品阶段。1996 年 Paul Carpentier 创建内容寻址存储初创公司 FilePool,逐步发展出 ByCast、Caringo、CleverSafe 等产品。

  • 走向对象存储公共云服务阶段。2006 年 AWS 发布 S3 对象存储服务,在云计算领域得到大规模应用,并成为海量数据存储底座。

  • 未来向跨云对象存储资源池演进。最近 10 年出现多家公共云对象存储服务,以及专有云对象存储产品,客户构建跨云的对象存储资源池,能够在不同厂家切换,是重要演进方向。

整体来看,技术演进背后的核心逻辑就是“稳定可靠、弹性扩展、简单易用”。

InfoQ:作为一项底层技术,为什么发展到现在对象存储还备受关注?

罗庆超:对象存储被持续的广泛应用和关注,最关键在于“它提供简单易扩展的名字空间,通过 RESTful 接口提供在任何时间、任何地点、任何互联网设备上进行上传和下载数据的能力”。正式由于对象存储的简单易用,天然的云原生特性,在诸多领域都能看到规模的增长,特别是多媒体数据存储、大数据和数据湖存储、AI 和高性能计算存储等行业。

InfoQ:在选择不同厂商的对象存储解决方案时,应该从哪些关键特性来进行判断?

罗庆超:对象存储领域竞争异常激烈,功能同质化明显。所以除了功能外,还要从安全合规、稳定性、弹性扩展、一致性、性能、生态等维度衡量。选择不同的云方案关注点也有差异,选择公共云对象存储时,数据安全合规、全球弹性扩展、丰富的生态等通常是重要考察点;选择专有云对象存储时,稳定性、数据一致性、性能等是典型的判断点。

InfoQ:看阿里数据湖发展历史,从 1.0 到 2.0 的发展是从 hadoop 存储转变为对象存储,当时是有一个什么样的决策思考过程?

罗庆超:阿里云见证了数据湖存储发展过程,技术的演进就是解决客户需求的过程。

  • 数据湖存储 1.0 阶段。它是用 HDFS 存热数据,对象存储 OSS 存温冷数据,实现冷热分级。

  • 数据湖存储 2.0 阶段。它指数据全部采用对象存储,但在客户计算环境还需部署 HDFS 元数据。

通过数据湖存储 1.0 到 2.0,可以减少客户计算环境部署、运维热数据的 HDFS 集群(通常几十 PB)的痛点,只需要维护少量的元数据,从而大大降低客户的成本开销。

InfoQ:在您看来,云上数据湖的发展趋势对存储提出了哪些诉求?

罗庆超:阿里云的数据湖存储已经演进到 3.0 阶段,数据湖存储 1.0 发展到 2.0 是优化掉客户计算环境的 HDFS 热数据集群来降低成本,数据湖存储 2.0 发展到 3.0 是优化掉客户计算环境的 HDFS 元数据来减少运维难度,现在的数据湖存储 3.0 通过 OSS-HDFS 提供全兼容的接口,让 Hadoop 生态应用平滑上云。在云上数据湖的过程中,深深的感受到生态兼容、性价比、易用性是非常关键的需求。

InfoQ:面向云原生的存储计算分离场景下,为了应对性能瓶颈,OSS 需要在哪些地方进行针对性的优化?

罗庆超:众所周知,云原生的关键技术包括容器、服务网格、微服务、不可变基础设施和声明式 API,而容器的弹性伸缩、快速拉起带来迫切的性能需求,OSS 提供了如下 2 个典型的优化项:

  • 单位容量的带宽和 OPS 能力提升。整体来说就是性能密度,从而实现容器镜像的秒级拉起。

  • 热点数据加速器服务。云原生场景下,存在多个容器并发读相同数据的场景,通过热点数据的缓存加速,提高并发访问的速度。

InfoQ:目前企业客户(ToB)在采用对象存储方面面临哪些主要挑战或障碍?阿里如何帮助缓解这些痛点?

罗庆超:不同领域企业客户上云关注点有差异,但不管是互联网企业、政府,还是金融都关注如下挑战:

  • 数据如何保证安全。存储的数据要不丢不错,能够加密存储、访问,满足行业法规要求。

  • 应用如何适配。企业应用运行周期长,部分只能运行在传统存储上,暂时不支持对象存储。

  • 简单易用好运维。通常企业有自己的运维系统,如何同云运维结合,让企业更加易用。

阿里云通过多年和 B 端客户上云的经验积累,提供全面的安全合规能力让客户数据上云放心,构建丰富的生态支持各种应用无缝接入,实现企业易用的运维特性,从而让客户安心上云。

InfoQ:您如何展望下一代对象存储技术?

罗庆超:对象存储已经有 20 多年的历史,公共云的对象存储服务也流行了 10 多年,下一代的对象存储的演进将受到应用场景和底层技术的影响。应用场景方面,数据湖、混合云、自动驾驶等都会给对象存储带来更多的需求输入;底层技术层面,存储介质密度越来越高,但每 TB 的性能越来越差,同时 100/200G 高性能网络、众核的 CPU 已广泛流行,如何平衡存储、网络、计算成为对象存储系统设计的难点。

2022 年 5 月 12-14 日,QCon 全球软件开发大会落地北京,会议设置数据湖存储底座、开源运营、研发效能提升、分布式数据库、大规模集群调度等技术等 28 个方向,邀请美团、阿里、腾讯、字节、微软、华为、PingCAP 等知名公司一线技术专家现场分享其业务实践与落地经验。

QCon 北京站现场门票火热售卖中,8 折优惠即将结束,感兴趣的同学扫描图中二维码或可以直接联系票务经理咨询:13269078023(同微信)。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK