8

王建奎Jerrick的个人页面

 2 years ago
source link: https://my.oschina.net/wangjiankui/blog/5271050
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

乘「风」破「浪」的国产图数据库

全文7265字,阅读需要15分钟

希望认真看完,欢迎留言讨论,求留言讨论

00 题记

2019年底,国产图数据库市场开始兴起,写了一篇汇总性的文章:国产软件之光,龙争虎斗的国产图数据库市场。但是因为接触到的产品和相关厂商还是有限,对于有些低调发展、默默前行的公司和产品有遗漏,感到非常抱歉。

时隔一年半,结合费马被收购、Nebula教育市场、Ultipa 强势入场、海致一鸣惊人、字节悄然布局等方面,我们再聊一聊国产图数据库市场。

01 东风

2016年10月9日,习近平总书记在中共中央政治局第三十六次集体学习时提出,“加快推进国产自主可控替代计划,构建安全可控的信息技术体系”“实施网络信息领域核心技术设备攻坚战略”。这充分说明,“构建安全可控的信息技术体系”是我国网信领域的一项重大任务。

自2016年提出安全可控体系以来,国家开始大力推进从基础硬件到基础软件再到应用软件三个层级的国产化替代。

2019年开始,信创成为一个产业,成为了IT、投资等领域广泛关注的社会焦点。各地信创项目开始大面积铺开,信创产业也随之出现了一个现象级的风口,成为了万亿级的大市场。相比于国产化,信创产业包含了从IT底层的基础软硬件到上层应用软件的全产业链的安全可控,涵盖了应用软件、信息安全、IT基础设置、基础软件四个领域。

2021年1月,中国电子学会和众诚智库,联合16家企业和机构,经过全面的调研和梳理,共同发布了《中国信创产业发展白皮书(2021)》。根据白皮书所述,【信创数据库市场容量大,处于群雄逐鹿阶段】。

2020 年,中国数据库市场规模达到 200 亿元,同比增长超过 20%。其中关系型数据库规模约 160 亿元,同比增长 17.6%,占比 80%;非关系型数据库规 模约 40 亿元,同比增长 43.5%,占比 20%。在海量非结构化数据分析需求的驱动下,非关系型数据库成长更快。

说到信创,不得不说信创名单,各大企业都希望自家的产品可以加入到信创名单中。然而,从任何公开渠道我都无法查询到数据库领域的完整信创名单。只有2021年05月11日,德本咨询/eNet研究院/互联网周刊发布的《2021信创产业分类排行》,我们只看信创数据库企业排行榜,共15家参与排名:

v2-504d9d6aa8dfc1ff4eea6ab7885168a2_1440w.jpg

我查遍了这份榜单中的企业,只有达梦拥有图数据库产品。星环也具备图数据库能力,但是集成在TDP一站式多模数据管理平台中,相对可能略重。

这里其实有个疑问,不在信创名单的就不满足国产化和自主可控么?非也。

收集资料的过程中我找到了一份《中央国家机关2021年数据库软件协议供货采购项目成交公告》,虽然此包中只有事务型数据库和分析型数据库,但是除了前面名单中的厂家,还有浪潮、新华三、腾讯云、阿里云等,以及微软和甲骨文

此外,公开信息也可以查到腾讯云960万中标了中国农业银行的图数据库项目、

渊亭科技中标中国移动苏研移动云知识图谱与图数据库项目。

2021年6月24日,中国信通院云计算与大数据研究所发布《数据库发展研究报告(2021年)》(非常详尽,强烈推荐详细阅读)。

据信通院测算,2020年全球数据库市场规模为671亿美元,其中中国数据库市场规模为241亿元(约35亿美元),占全球5.2%。预计到2025年,全球数据库市场规模将达到798亿美元。中国数据库市场总规模将达到688亿元(约100亿美元),市场年复合增长率(CAGR)为23.4%,未来五年,我国数据库市场空间巨大。

v2-8f28cac6a2fbac92598f1ace11ee3e7c_1440w.jpg

假设图数据库在数据库整体市场中占5~10%的份额,2022年中国图数据库市场规模大约18.4~36.8亿元,到2025年将达到34.4~68.8亿元。

结合国内信创的大背景,以及各大厂商、各种场景案例的纷纷落地,国产图数据库的未来大有可期!

02 巨浪

2021年,是资本被谈论最多的一年。从蚂蚁金服的暂缓上市,到互联网反垄断,再到教育、饭圈的大整改,以及第三次分配,资本被摆到了台面上,仿佛成了全民公敌。

渺小如我,不敢从宏观上去判断资本的好坏,但是对于国产化浪潮,对于图数据库市场,资本的加持都是利大于弊的。

先来看看国外图数据库市场的融资情况:

2019年7月31日,Dgraph宣布完成1150万美元的A轮融资;
2021年2月19日,TigerGraph宣布成功完成1.05亿美元的C轮融资,成为图数据史上最大单笔融资。;
2021年6月18日,『老大哥』Neo4j 宣布完成F轮3.25亿美元融资,估值超过20亿美金,这成为数据库史上最大的一笔投资。

重点看下国内。

021 费马科技


2020年12月29日,京东数科关联公司退出费马科技投资人(2018年3月完成来自京东金融的A轮融资)。后来听资本的朋友提起,才知道原来费马科技被蚂蚁金服收购了。这一点外界并没有明确的报道,但是通过费马科技官网的办公地址可以直接证明。

被收购后的费马,仿佛一下子停滞了,公司大事件停留在了:2020年7月,以往活跃的知乎官博停留在了2020年8月。听闻是内部整合中,不夸张的说费马其实是我个人在图数据库行业的领路人,我也非常希望看到费马(或者换成其他名字),再回到这片战场。

022 欧若数网 Nebula Graph


Nebula Graph依然能打,Github Star数达到6.5K,短短一年半翻了4倍多;DB-Engines排名上升到15位,远超国内其他开源厂商(百度HugeGraph 26位,华为GraphBase 30位)。

更难得是Nebula Graph社区非常活跃。

1)落地应用可谓硕果累累:百亿图数据库在快手安全情报的应用与挑战、美团图数据库平台建设及业务实践、图数据库 Nebula Graph 在 Boss 直聘的应用、Nebula Graph 在微众银行数据治理业务的实践、图数据库选型 | 360 数科的图数据库迁移史、微信| Nebula Graph 在大规模数据量级下的实践和定制化开发、VIVO 大规模特征存储实践,每个案例都是干货,涵盖了威胁情报、智能问答、搜索召回、商品推荐、服务治理、代码分析、数据血缘、安全风控、社交推荐、特征存储等场景。(这些只是公开分享过的案例,官网还有更多的案例。)

2)Nebula Graph组织了多场线下Meetup和线上直播,远远超过任何一家图数据库厂商,成为了名副其实的图数据库布道者。

开源布道、教育市场、转化客户,开源厂商们的「三级火箭」。

Nebula Graph这样持续的技术布道、教育市场,价值是什么呢?

毫不避讳的说,如果有人找我建议图数据库选型,Nebula Graph是我推荐的首选;而且我从其他公众号读者得知,即使不懂技术的同学,想尝试做图数据库在特定领域的相关应用,首选方案也是Nebula Graph

2020年6月,Nebula Graph 完成800万美金的Pre-A轮融资;

2020年11月,Nebula Graph 完成近千万美金的Pre-A+轮融资。

产品上,Nebula Graph 核心图数据库 升级到 2.0 GA版;同时发布了Nebula Graph Studio(Web GUI )、Nebula Graph Dashboard(监控)、Nebula Graph Explorer(可视化分析)等界面工具;大数据方面,跟紧主流兼容Spark和Flink。

2020年10月,Nebula Graph 荣获工信部数字经济媒体颁发的“2020 年度图数据库领军企业”。

2021年9月,OTEC X Emerge 国际科技创新峰会上,Nebula Graph 荣获“Best Tech Innovation 最具科技创新奖”和“Best fintech startups 最佳金融科技初创企业”奖。

023 Ultipa Graph


Ultipa Graph创办于2019年,创始人孙宇熙(Ricky)曾是全历史的CEO。是的,就是那个万物互联,涵盖全部人类历史的宏大图谱,站在高处看世界的全历史(强烈安利)。还有一个奇妙的缘分是,曾经有朋友的朋友帮全历史招CEO,我对全历史非常有好感的,可惜能力不够,责任重大,不敢尝试。

孙总也曾任EMC CCOE首席技术官、EMC中国研究院院长、SplashtopOS首席架构师(ChromeOS前身),是世界级高性能系统及大数据与云计算专家,更难能可贵的是,孙总也是一个持续的技术输出者,在知乎有专栏「老孙解密大数据」进行连载。

2019年10月10日,Ultipa宣布完成天使轮融资,融资方是来自香港的的著名投资机构招银国际。

2020年5月25日,Ultipa 宣布完成2100 万美金 A 轮融资,由某知名主权基金领投,天使轮投资方招银国际跟投。

产品上,Ultipa既提供了通用的图数据库、图计算、知识图谱等能力,同时发力图嵌入式人工智能、以及金融行业解决方案。

图嵌入式人工智能,是我个人看好的一个方向;金融解决方案,是将技术能力抽象成业务产品,涵盖了实时反欺诈系统、实时反洗钱、担保链监测、资金流追踪、最终受益人、流动性风险管理、巴塞尔协议III应对方案、供应链金融解决方案等。

商业化层面,2020 年是 Ultipa 商业化的元年。自 2019年,平安银行和招商银行相继开始与Ultipa进行场景探讨和深入测试,并已和 Ultipa 签约,成为其金融行业的典型客户。

具体场景上,招商银行也利用Ultipa实时图数据库及可视化能力针对巴塞尔协议III核心监测指标展开了⼀次开创性尝试,构建了流动性风险图中台。2021年7月,权威财经媒体《亚洲银行家》杂志揭晓“2021年度中国奖项计划”——招商银行荣获“中国流动性风险管理成就奖”,这是唯一一项流动性风险管理方面的奖项。

024 海致星图 Atlas Graph


海致星图成立于2013年,是海致网聚(现海致科技集团)的子公司,海致网聚主打海致BDP产品,聚焦公安领域;海致星图聚焦金融银行领域。

海致星图2016年推出了面向金融行业的知识图谱应用,成为行业知识图谱的开创者,也迅速成为了最受欢迎的金融知识图谱公司,得到了包括兰州银行、青岛银行、招商银行、南京银行、长沙银行等多个银行机构的认可。海致智能金融知识图谱也帮助这些银行在智能CRM、智能风控管理、反欺诈等领域取得了卓有成效的成果(2017年)。

此后,2018年、2019、2020、2021年海致星图继续领跑金融知识图谱,落地深交所、广发银行、上交所、上海银行、南京银行、宁波银行、中信银行等等,案例实在是太多了(官网),并获得了字母点评 2021·最佳知识图谱平台TOP10中的第一名。

2018年3月海致星图完成 A 轮融资;

2019年11月海致星图完成完成 B 轮融资;

2020年9月,海致星图完成由达泰资本独家投资的数千万元 B+轮融资。

大概2019年底,2020年初,海致星图开始规划自研图数据库,命名AtlasGraph,目标是新一代云原生实时并行图数据库,支持万亿大图试试分析。AtlasGraph基于Rust语言开发,包含分布式存储引擎和分布式图计算引擎,通过精细的内存管理、内置索引,支持毫秒级的并发查询响应速度。

2021年3月25日,中国工程院院士郑纬民教授,与海致集团,宣布海致高性能图计算院士专家工作站筹备启动,郑纬民教授正式出任海致科技首席科学家,同时,海致科技与清华大学计算机科学与技术系签署合作技术开发协议,目标于打造“云边端一体、软硬件协同”、自主可控的国际一流图技术产品体系和应用生态环境,实现从技术到产业的全面突破性发展。

025 创邻科技 Galaxybase


2021年9月,创邻科技度过了它的五岁生日。五年来,创邻不断打磨自身的技术实力,聚焦行业场景落地,开拓技术服务创新,从初创时的“星巴克三人组”成长为现在的人工智能领域的准独角兽。

从创办之初,创邻就相信,要做“难但是正确的事”,要做“国人自己的图数据库”,要用“技术赋能未来企业,实现数据关联价值”。

2018年8月,创邻科技获百度风投天使轮投资;

2020年9月,创邻科技完成A轮融资,高瓴领投,百度风投跟投;

2021年1月,创邻科技宣布完成数千万元A+轮融资,由腾讯产业生态投资领投,A轮领投方高瓴创投跟投。

2021年,创邻科技携手Galaxybase国产高性能图数据库,斩获“商业银行IT服务优秀解决方案奖”,赋能多家金融行业头部客户,并在世界人工智能大会中成功筹办图应用论坛。同时,Galaxybase不断与更多国产软硬件完成适配认证,为全国产办公环境的实现添砖加瓦。

026 大厂们


2020年12月,百度安全 大规模图数据库HugeGraph宣布,正式发布图可视化分析平台 HugeGraph-Hubble v1.5 版本。该版本全面升级平台可视化工具,打造一站式图服务,从数据建模,到数据快速导入,再到数据的在线、离线分析,以及图的统一管理,实现了图应用全流程的向导式操作,旨在提升社区用户的使用顺畅度,降低使用门槛,提供更为高效易用的使用体验。

2018年8月,字节跳动内部开始进行自研图数据库的开发,命名ByteGraph。ByteGraph的初期只是从解决一个最核心的抖音社交关系问题入手,逐渐演变为支持有向属性图数据模型、支持写入原子性、部分 Gremlin 图查询语言的通用图数据库系统,在公司内部头条、抖音、 TikTok、西瓜、火山等几乎字节跳动全部产品线,遍布全球机房。2020年初,一篇《字节跳动自研万亿级图数据库 & 图计算实践》开始在朋友圈刷屏,感兴趣的同学可以详细的看一下,这里不单独展开了。

2020年6月1日,腾讯云正式发布分布式图数据库产品腾讯云数图TGDB(Tencent Graph Database)。这款数据库能够实现万亿级关联关系数据实时查询,高效治理异构数据,支持实时图计算,助力企业打通数据孤岛。2021年7月,TGDB取得多项测试第一的好成绩,中标了中国农行图数据库项目。

2021年1月(文档时间),腾讯云开始内测新一代图数据库 KonisGraph(TencentDB for KonisGraph)是基于腾讯在海量图数据上的实践经验,提供的一站式海量图数据存储、管理、查询、计算、可视化分析的图数据库服务,图数据库 KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和分析。

华为云图引擎服务 GES(Graph Engine Service),是国内首个商用的、拥有自主知识产权的国产分布式原生图引擎。早在2019年华为云推出一站式AI开发平台ModelArts,联合了GES图引擎打造的“图神经网络”,让图深度学习开始落地。通过图深度学习,既能提升算法准确性,又提升了效率。

2019年3月,阿里云发布自主研发、自主可控的图数据库产品,GDB。2020年2月,GDB正式商用上线。2020年6月,正式支持OpenCypher查询语言,至此,GDB已兼容Gremlin和OpenCypher两大主流查询语言。

027 其他厂商


2021年4月,东方国信发布了分布式图数据库CirroData-Graph,基于开源项目HugeGraph研发,并在HugeGraph的基础上实现了分布式开发集成

国产化方面,CirroData-Graph分布式图数据库已经与华为鲲鹏芯片完成了兼容性测试互认证;产品应用方面,CirroData-Graph与东方国信“数据魔方”产品实现了兼容适配,完全替换其底层neo4j图数据库,并与“数据魔方”一起在公安、电信、金融、工业等领域投入使用。

2021年7月,国家电网发布国内首款电力专用图数据库GridGraph。中国工程院院士倪光南在发布会视频致辞中提到:“在图数据库自主创新方面,联研院计算所贯彻落实了习近平总书记’加快推进网络信息技术自主创新,朝着建设网络强国目标不懈努力’指示,以业务需求为导向,从2019年起自主研制了电力专用图数据库GridGraph,实现了核心技术工具的技术创新和自主可控,有效支撑了电网一张图建设”。

2021年8月,中科金审自主研发的大规模分布式原生图数据库产品FASGraphDB,采用混合式计算架构,高压缩比缓存技术,可支持海量数据图谱的高效存储和查询。FASGraphDB也强调国产化和自主可控,适配国产主流的基础软硬件。同月,中标了华夏银行图数据库项目。

03 反思

每年都因图市场的快速发展而被专家、记者和市场观察家称为“图年”,此后2018 年、2019 年和2020 年都具有递增的“图年”潜力。TigerGraph, 许昱

做为一个曾经的图数据库从业者,对许博士这句非常认同。但是,事实上每一年都没有真的成为「图年」。我个人认为主要是市场因素和成本因素2个主要原因。

031 市场因素


图数据库目前面向的市场还只是toB、toG的市场,在toC领域,几乎没有图数据库相关的案例,「全历史」是我唯一能看见的,这也是我非常喜欢「全历史」的一大原因。

想要真的进入「图年」,需要让普通大众也关注到图数据库的技术,市场上需要一个杀手级应用(爆款),一如炒币带火了区块链、ZAO 带火了AI换脸

2018:AI芯片、5G元年、新零售、人工智能、无人驾驶、共享出行、全面屏、区块链、网络安全与隐私、健身科技
2019:AI、5G、区块链、机器人、VR、AI寻人、智能家居、物联网、刷脸支付、AR 2020:口罩人脸识别、量子计算、虚拟人、脑机接口、无人出租车、工业物联网、云服务器、产业智能化、人工神经网络、智能红绿灯2018-2020 年度科技热词

032 成本因素


成本因素包含很多,主要说下使用成本和后悔成本。

1)使用成本,查询语言不统一

开源届主要是支持Apache Tinkerpop的Gremlin。但是Gremlin学习成本很高(写起来很痛苦),为了降低成本,各大厂商陆续推出了自己的图查询语言,例如Neo4J的Cypher,Tiger Graph的GSQL、Nebula Graph的nSQL。同时Neo4J发布了openCypher语言,来支持其他厂家的适配。

好的消息是目前国际已经开始推图查询语言的标准化。

2)后悔成本,没有后悔药

图数据库的应用,需要在系统层面就做好架构支撑。不像传统的关系型数据库,可以灵活的替换底层的数据库厂商,图数据库项目目前没有后悔药。一旦进行了方案设计,除非重构,否则无法直接平滑的替换底层的图数据库或者将图数据库换成关系型数据库。

04 寄语

红日初升,其道大光。河出伏流,一泻汪洋。潜龙腾渊,鳞爪飞扬。乳虎啸谷,百兽震惶。鹰隼试翼,风尘翕张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有八荒。前途似海,来日方长。梁启超,《少年中国说》

1、构建安全可控的信息技术体系

http://www.cac.gov.cn/2018-05/11/c_1122777589.htm

2、信创产业加速扩展 国产替代提速

https://www.zgswcn.com/article/202008/202008281156071088.html

3、信创产业——一个万亿级的新市场

http://news.hexun.com/2020-04-12/200994162.html

4、《中国信创产业发展白皮书(2021)》

https://mp.weixin.qq.com/s/ykUOtvO2btgbzldUoM1JyQ

5、2021信创产业分类排行榜

https://baijiahao.baidu.com/s?id=1699423336917196840&wfr=spider&for=pc

6、中国信通院:2021年数据库发展研究报告

http://www.caict.ac.cn/kxyj/qwfb/ztbg/202106/P020210625629931267505.pdf

7、京东数科关联公司退出费马科技投资人

https://baijiahao.baidu.com/s?id=1687575268813925052&wfr=spider&for=pc

8、Nebula Graph案例

https://nebula-graph.com.cn/tags/%E6%A1%88%E4%BE%8B/

9、Ultipa Graph官网

https://www.ultipa.cn/

10、字母点评  2021·最佳知识图谱平台TOP10

https://mp.weixin.qq.com/s/jRuRZZTqQW0UghQjdhU_Kw

11、创邻科技官网

https://www.galaxybase.com/aboutus

12、字节跳动自研万亿级图数据库 & 图计算实践

https://blog.csdn.net/ByteDanceTech/article/details/104509642/

13、“出生即王者”腾讯云发布图数据库TGDB、实现万亿级数据实时查询

https://baijiahao.baidu.com/s?id=1668284305100162557&wfr=spider&for=pc

14、东方国信发布分布式图数据库CirroData-Graph

https://baijiahao.baidu.com/s?id=1697081688131328568&wfr=spider&for=pc

15、国家电网发布国内首款电力专用图数据库

http://news.10jqka.com.cn/20210711/c630874379.shtml

16、图数据库FASGraphDB,数字化转型的“必选项”

https://www.163.com/dy/article/GIEC9JB405527E7L.html

17、图市场的演进、增长和创新让人惊喜

https://mp.weixin.qq.com/s/yhdLqn4d4-k5jA9yQhbtGA

18、2018年度词汇新鲜出炉丨15个科技类热词抢先看

https://zhuanlan.zhihu.com/p/50318229

19、百度沸点

https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E6%B2%B8%E7%82%B9/3237926?fr=aladdin

20、Nebula Graph吴敏博士:图查询语言的历史回顾短文

https://mp.weixin.qq.com/s/v3REmmvjC-lRL4Xd5kmsSg


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK