5

解读《“十四五”数据库发展趋势与挑战》报告

 2 years ago
source link: https://dbaplus.cn/index.php?m=content&c=index&a=show&catid=250&id=4184
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

解读《“十四五”数据库发展趋势与挑战》报告

刘思源 2021-12-11 10:06:00

图片

中国信通院云计算与大数据研究所工程师 

2021年10月10日,中共中央、国务院印发了《国家标准化发展纲要》,提出“开展数据库等方面标准攻关,提升标准设计水平,制定安全可靠、国际先进的通用技术标准。”、“到2025年,实现标准供给由政府主导向政府与市场并重转变,标准运用由产业与贸易为主向经济社会全域转变,标准化工作由国内驱动向国内国际相互促进转变,标准化发展由数量规模型向质量效益型转变。”数据库标准化攻关的重要性被提升到前所未有的高度。

2021年11月30日,工业和信息化部印发《“十四五”软件和信息技术服务业发展规划》(以下简称:《规划》),《规划》指出:“加速分布式数据库、混合事务分析处理数据库、共享内存数据库集群等产品研发和应用推广。”、“推动高性能数据库在金融、电信、能源等重点行业关键业务系统应用。”

随着数据库顶层设计不断加码,未来5年,我国数据库产品研发将步入快车道,创新技术不断突破,竞争实力显著增强,行业应用迈入深水区,数据库产业将形成新的发展格局。

一、报告概述

2021年12月4日晚,在第38届CCF中国数据库学术会议(NDBC2021)的颁奖晚宴上,CCF数据库专委会正式发布了《“十四五”数据库发展趋势与挑战》报告。

该报告是由18位参加了2021年CCF中国数据库启智会的国内数据库知名学者和头部企业核心技术人员共同撰写的,对“十四五”期间,数据库技术的发展趋势与挑战做了系统性的论述,旨在对未来一段时间国内数据库学术研究和技术发展提供参考。报告主要讨论数据库系统的发展趋势以及前沿技术热点。讨论了云原生数据库、分布式数据库、端边云数据库、AI原生数据库的研究背景、现状、挑战和发展趋势。

其次,报告总结了基于新型硬件的数据管理、智能数据管理、多模数据管理、数据安全和隐私保护的未来发展趋势。最后总结了国产数据库生态建设的思考。

二、数据库技术发展现状及挑战

云原生数据库章节主要首先介绍云数据库现状,云数据库分为数据库云服务(Database as a service)和云原生数据库(Cloud-native database)两类。

云数据库是指将传统数据库部署在云基础设施上,云原生数据库生而为云架构设计,具有存算分离(计算节点不保存数据库状态,计算和存储节点分别弹性扩缩容)、日志即数据(只写日志,通过存储层回放数据避免IO放大,降低网络压力)、一写多读(存储层回放数据保证多份数据一致性)等特点;

此外报告提出第一代云原生数据库的短板,例如一写多读可能造成的扩展性受限、写节点故障导致RTO升高、读写节点时延上升等;提出第二代云原生数据库的设计思路和发展趋势,具体为多写能力的瓶颈在于内存buffer数据的共享问题,可利用内存虚拟池化解决,远程直接内存访问(RDMA)技术可以将内存数据绕过操作系统传输至另一台计算机,从而实现分布式共享内存,第二代云原生数据库将实现计算、内存和存储三者解耦、分层池化。最后还提出了第二代云原生数据库的挑战,包括但不限于分布式共享内存技术、三层事物处理架构、网络层和存储层算子下推、细粒度弹性计算、HTAP负载等。

分布式数据库章节首先阐述该类数据库产生背景,此处不多赘述,提出了发展现状和挑战,包括分布式数据库实现技术路线:

  • 一是一主多备、读写分离方案;



  • 二是分库分表中间件方案;



  • 三是原生分布式数据库方案;

分布式数据库要解决分布式事务处理与查询优化(分布式事务处理、分布式优化器)、智能数据分布技术、分布式高可用技术和智能运维调优技术等。

首先分布式事务处理中涉及的关键技术全局单调递增序列实现机制主要有两种:集中式授时和分布式授时。集中式授时优点为实现简单,但授时节点容易成为中心瓶颈、扩展性差;分布式授时方案有谷歌Spanner提出的“本地原子钟+GPS”,保障跨可用区、跨地域部署场景下的数据一致性。

智能数据分布技术包括基于AI 的智能分布键推荐技术和透明分布键技术,前者利于算法对数据模型和分布特征进行学习,选择最合理的分布键;后者在建表时自动创建隐藏分布键,用户无感知。未来,金融、政务客户将会大规模推进数字化转型,转型过程中数据库分布式改造将会成为重中之重,同时异构处理器、新型存储介质和高性能网络硬件也会加速分布式数据库发展。

端边云数据库章节首先介绍发展背景和现状,物联网的发展和数字孪生的普及促进端边云数据库成为一种趋势。端侧需要实时采集时序数据和简单分析,边侧实时汇聚和关联分级,云侧实现数据存储、复杂分析。然后从实时决策、网络优化、能耗优化、安全隐私等层面阐述了引入端侧和边侧计算的合理性。最后提出了端边云协同数据库的设计挑战,包括数据应该存在哪一侧、什么时机传输和分析数据、采用什么数据模型和分析手段、异构硬件计算代价差异导致的算子模型实现机制、数据压缩性、近数据计算技术、隐私保护等。

AI原生数据库的研究背景为大数据背景下,利用异构数据进行分析预测通常需要复杂的机器学习算法实现,但AI算法门槛较高导致落地难,亟需扩展SQL算子支持AI算子,实现库内训练和推理,同时通过内置AI算法实现数据库智能优化、智能运维。

其核心技术的挑战较多:一是如何设计和实现统一的数据模型,使之平滑支持关系代数操作(如选择、投影、交)、线性代数操作(如标量、向量、张量操作)和基于神经网络等更复杂AI模型的操作;二是如何设计和实现统一的操作算子,使得基于线性代数、AI模型运算效率提升;三是如何设计和实现统一的优化引擎,与传统基于代价模型优化执行计划相似,统一执行引擎优化DB & AI 混合操作;四是如何利用CPU+GPU异构硬件实现训练和推理加速,例如在训练调优时,利用AI芯片将训练数据提取到内存中,然后使用NPU进行反向传播,通过传统CPU进行连接和过滤操作。

未来,需要从AI视角重新思考和设计新型DBMS,在数据模型、数据操作模型和执行优化引擎全面推动理论和实践创新。

三、数据库新技术发展洞察

此外,本报告还深入探讨了一些数据库新技术,与中国信通院云计算与大数据研究所于2021年6月26日发布《数据库发展研究报告(2021年)》(以下简称“发展报告”)中提到的数据库七大发展趋势不谋而合。七大趋势总结起来体现为三个方向:

  • 多模数据库实现一库多用、利用统一框架支撑混合负载处理、运用AI实现管理自治,提升易用性、降低使用成本(趋势一、二、三);



  • 充分利用新兴硬件、与云基础设施深度结合,增强功能、提升性能(趋势四、五);



  • 利用隐私计算技术助力安全能力提升、区块链数据库辅助数据存证溯源,提升数据可信与安全(趋势六、七)。

发展报告由于侧重产业和发展脉络,不仅仅讨论技术方面内容等原因,没有详细深入开展相关描述,此次CCF数据库专委会发布的报告非常详实地从新硬件驱动的数据管理、智能化数据管理、多模态数据管理、数据安全隐私计算和其他数据管理技术等新技术展开论述。

新硬件驱动数据管理章节从计算、存储和传输三个层面对各类新硬件可能发挥的价值进行描述。计算层面,借助GPU、FPGA、AI芯片等,可以实现包括但不限于多核并行优化、事务并发控制、查询加速、存储层计算卸载、数据压缩加速、工作负载迁移等能力;存储层面,随着NVM的出现和发展,内存和外存的界限变得模糊,针对传统块存储设计的索引在NVM中面临新的性能挑战;传输层面,RDMA带来网络传输高性能表现和CPU卸载能力,为充分榨取其性能,可能对数据库系统的架构设计带来颠覆性变化。

智能化数据管理章节首先阐述该技术的研究动机和现状,目前学术界和工业共识的研究重点是把机器学习与数据管理在功能上融合统一,利用机器学习增强系统设计开发。学术界在自优化、自监控、自诊断、自恢复等方面取得一定进展,但在如下方面还存在亟待攻克的挑战:

  • 一是目前技术缺乏对数据库系统的整体感知,仍停留在各个环节的局部优化层面;



  • 二是自治数据管理对系统稳定性的保障仍然存疑,没有考虑系统鲁棒性;



  • 三是如何提供空间和时间上小巧轻量的学习模型是AI赋能查询优化技术的关键问题;



  • 四是如何保证多场景下映射的严格一致性约束;



  • 五是面对频繁变化的场景,如何将训练好的系统迁移到新的数据库业务并保持较好性能。



  • 六是如何在每个服务层中动态选择适当组件并组合适当的执行路径,例如,优化器通常包括基于代价、规则和学习模型三种组件,可以根据用户需求选择最好的。

多模态数据管理章节首先阐述该技术的研究动机和现状,面对关系、键值、图、文档等数据模型,如何进行统一纳管成为制造业等行业重大需求。该类技术具有多模态数据的统一建模、存储管理、查询处理、并发控制和质量保证等需要攻克的痛点。

多模态数据建模将由目前以关系为中心逐步转为以对象为中心,更多关注非结构化数据的语义建模,强调数据与操作的可封装性、多重分类和动态分类,尤其是多模态数据之间复杂的语义关联,未来不是模式限定数据变化,而是数据驱动模式演化。

数据安全隐私计算章节从全密态数据处理、安全多方计算、防篡改数据处理等角度进行详细介绍。

全密态数据处理重点关注如何对数据进行加密存储以便在加密后的数据上进行多种类型的查询,密态数据库(Encrypted Database)利用全同态加密等技术对数据进行加密存储以实现尽可能提高云服务处理加密数据的能力。加密方式分为基于软件和基于硬件加密两种,基于软件的典型产品为CryptDB,针对不同查询使用了保序加密、半同态加密、全同态加密等算法对数据进行加密存储;基于硬件的加密将操作转移至可信硬件(TEE)处理单元(如SCPU、Intel SGX),以获得更好的效率和通用性。

该类产品在实际应用中仍然存在执行效率和数据操作过程中的安全性等挑战。未来,全密态数据库将在软硬结合、支持范围查找的密态索引、动态数据安全存储等方面着意进行技术突破。

安全多方计算最早研究工作成果为SMCQL,借助混淆电路技术,能够联合两个参与方的关系型数据库执行复杂的SQL查询且不泄露除查询结果之外的任何其他数据,随后Conclave将该框架用于大数据处理引擎上,结合秘密共享技术,能够联合三个参与方各自引擎执行复杂分析,但执行效率较低,为提高效率,未来可从结果精度和特定操作两个角度入手,一些工作将差分隐私技术与安全多方计算相结合,以降低精度为代价提升计算执行效率,此外,还可以针对数据库连接等经典操作针对性优化。

然而,在落地应用方面,主要挑战包括效率与参与方数量两点,具体表现为基于通讯和计算开销的效率挑战和参与方数据的可扩展性挑战。

防篡改数据库是指利用区块链不可篡改特性保护数据不被篡改,具体研究问题主要分为数据存储与事物处理两大类,存储方向分为键值对和关系型数据存储,事物处理方向聚焦于在区块链上完成数据库的事物并发控制、访问控制授权、查询处理优化等传统问题。该类产品目前还存在基于共识算法执行效率挑战和多方参与的数据隐私性挑战。未来防篡改数据库将在平衡系统可信性与吞吐量、实现基于链上链下混合存储的防篡改机制、实现面向跨链场景的数据协同处理系统等方向进行突破。

最后,在新技术章节还提出了其他需要深入研究的数据管理技术,包括嵌入式数据库、视频数据库、面向量子时代的数据管理、数据仓库数据湖融合数据管理等。

四、国产数据库生态建设

国外数据库历经60年发展,国内数据库在技术研发、产品应用等方面起步相对较晚,过去各个核心系统均运行在以Oracle、DB2、SQL Server等国外产品之上,目前差距除了技术以外,更重要的在于生态建设。该报告重点从数据库评测基准建设、开源生态建设和产学研用深入合作三个方面深刻阐释我国数据库生态建设的急迫性。

评测基准建设方面,1988年,事务处理性能测试委员会(以下简称“TPC”)由9家公司联合成立,于1989年正式发布第一个数据库测试基准TPC-A,将80年代中期建立的TP1和DebitCredit模型法典化,形成了标准。首份测试报告于1990年发布,4年后,33家公司接受了TPC-A测试,115个不同系统发布了TPC-A的测试结果。1992和1994年,TPC依次发布了两个影响至今的测试标准,即面向OLTP业务的TPC-C和面向决策支持系统的TPC-D,在各自领域获得了广泛接受。

如今TPC系列在数据库系统普遍适配云计算平台,采用分布式架构,并提供越来越多的新数据类型支持和新数据管理和数据处理服务的场景下,并不能满足当前以及未来系统比较、系统选型、指导研发、规范产业的需要。

未来,首先分布式数据库正确性测试需要重点关注,一套面向分布式数据库完整的事务正确性测试方法,公开、易用的测试工具是促进分布式数据库系统研发,提升新型数据库系统在关键核心应用形成替代的必需品。

可喜的是,中国信通院早在2018年就联合北京银行、建设银行等多家金融机构自研并推出基于国内真实金融核心场景的图形化事物数据库性能测试工具。该工具不但能够自动化地生成性能指标结果,还能检测数据库ACID准确性,目前已适配国内主流数据库20余款,完成10余款产品的正式评测。

其次面向应用的评测基准构建方法需得到重视,类似于嵌入式环境、多模态数据管理、数据管理与机器学习/AI 相结合的应用等场景,普遍缺乏公开和权威的评测基准。构建典型应用的评测基准和工具,是适应新型数据管理系统和应用发展的必然要求。

最后,数据上云趋势下,传统响应延迟、吞吐率等为代表的性能评价指标不再能全面反映新系统特性,亟需对云服务能力、可扩展性、弹性、新硬件利用率等指标与应用单位进行探讨和确认。

数据库开源生态建设方面,开源在数据库系统的发展过程中发挥了重要的作用,不论是数据库产品还是周边工具,均得到了广泛的开源生态支持,最早的关系型数据库系统之一Ingres诞生之初即以 BSD 协议开源;具有广泛用户的 MySQL 和 PostgreSQL 都是开源产品;安装量最大的SQLite 也是开源系统。

开源对于数据库生态建设具有技术公开与安全可靠保障、用户反馈收集与经验积累、开发和运维工具链构建、用户与产业链培育、研发人员教育与技术探索等重要意义。

产学研用深入合作方面,报告分别对这四个环节提出了希冀,如学校应承担起人才培养和引领性研究的使命;科研机构应负责攻克如全球高可用、分布式事务一致性等当前卡脖子的关键问题;数据库研发企业应承担研制国产数据库的使命,不但解决关键问题,还要推动技术革新与出海;数据库用户应着眼未来,不能仅仅要求一比一替换,而是通过数据库升级迭代引领产品和应用发展。

五、总结

当前我国数据库技术产品在稳定性和服务能力方面,仍有较大突破空间。此外,数据库标准化工作不能放缓和懈怠,需有序有力持续深入进行。围绕数据库开展产学研用多方紧密联系的合作仍刚起步,未来还有大量工作需要完成。我辈应当不辱使命,勇担重任,为实现科技强国而不懈奋斗。

作者丨刘思源 来源丨公众号:数据库应用创新实验室(ID:gh_fef2234cfc9b) dbaplus社群欢迎广大技术人员投稿,投稿邮箱:[email protected]


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK