5

ChatGPT引爆「向量数据库」赛道!两家公司共获10亿元融资

 1 year ago
source link: https://awtmt.com/articles/3687799
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

ChatGPT引爆「向量数据库」赛道!两家公司共获10亿元融资

AIGC开放社区 发表于 2023年05月01日 01:12
摘要:当创业者的目光聚焦在类ChatGPT大语言模型、应用、衍生产品时,为其提供“后勤服务”的向量数据库拓宽了生成式AI细分创业赛道,并成为下一代生成式AI应用的主要数据库存储。

4月22日,向量数据库平台(vector database)Weaviate宣布获得5000万美元(约3.5亿元)B轮融资,由Index Ventures领投,Battery Ventures等跟投。

4月28日,向量数据库平台Pinecone宣布获得1亿美元(约7亿元)B轮融资,由Andreessen Horowitz领投,ICONIQ Growth等跟投。

最近,为ChatGPT等生成式AI应用提供向量搜索、向量数据存储、向量嵌入等功能的向量数据库赛道突然走红,两家初创公司Pinecone和Weaviate的融资时间仅间隔6天,其火爆程度可见一斑。

Pinecone联合创始人兼首席执行官Edo Liberty则直言,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。

事实上,在ChatGPT火爆出圈之前向量数据库非常小众,而Pinecone和Weaviate皆创立于2019年无论是融资还是营收并不如意,因为,大型科技巨头具备自研能力无需使用第三方产品,例如,微软将向量搜索技术应用在Bing中。

现在,大量开发者涌向生成式AI应用开发领域,这使得蛰伏4年的两家向量数据库厂商终于迎来了曙光,其用户数量呈指数级增长,也是获得巨额投资的重要原因之一。

Pinecone融资信息

76287885-2002-40eb-a486-924da3efb634.png

当创业者的目光聚焦在类ChatGPT大语言模型、应用、衍生产品时,为其提供“后勤服务”的向量数据库拓宽了生成式AI细分创业赛道,并成为下一代生成式AI应用的主要数据库存储。

不过,目前向量数据库存储只有大型科技巨头才能使用,而Pinecone和Weaviate希望简化使用流程降低成本,使得中小型企业、个人开发者也能使用向量数据库。

微软专家介绍向量搜索

此外,根据 IDC调查数据显示,全球在AI技术和服务上的支出2023年将达到1540亿美元,到2026年将超过3000亿美元。其中,向量数据库为AI的开发、增强内容生成的准确性提供了重要技术支撑。

下面「AIGC开放社区」将为大家介绍向量数据库技术概念、与ChatGPT等大语言模型的关系、技术特征、场景化落地以及Pinecone和Weaviate这两家典型厂商的介绍。

81a3d4ae-69c8-48eb-98d9-449ebe2cc635.png
什么是向量数据库

笔者查询了国外大量权威的论文、专业技术网站,甚至询问了ChatGPT,它们对向量数据库的技术概念解释非常复杂难以理解。所以,就用通俗易懂的方式为大家介绍向量数据库概念。

3d683336-a04f-44a0-8523-f7241baa476e.png

简单来说,向量数据库用来存储非结构化数据,例如,文档、图片、视频、音频和纯文本等,在保证100%信息完整的情况下,通过向量嵌入函数来精准描写这些非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。而像SQL、Mysql这样传统的数据库根本无法完成这些操作。

从向量数据库的技术特性不难看出,这是专门为ChatGPT等生成式AI应用量身定制,例如,让ChatGPT用莎士比亚的语气生成一段诗句,ChatGPT通过向量数据库的相似搜索功能,可以增强内容输出的准确性。

472c792f-2a3d-4199-ba7b-c229742fe32a.png

因此,向量数据库在大语言模型、计算机视觉、推荐系统以及其他需要语义理解和数据匹配的领域得到广泛应用。

向量数据库主要功能和用例

向量数据库除了存储数据之外,还提供了语义搜索、图像/音频/视频/等非结构化数据相似度搜索、排名和推荐引擎、支持大规模数据、索引与压缩技术、分布式架构等功能。

语义搜索:通常搜索文本和文档可以用两种方式完成,词法搜索和精准的单词或字符串匹配。向量数据库的语义搜索可以理解文本、句子和整个文档字符串的含义和上下文,从而提供更准确和相关的搜索结果。

6b9dfda3-3f78-4e55-89a2-4862e074a621.png

图像/音频/视频/等非结构化数据相似度搜索:图像、音频、视频和其他非结构化数据集,在传统数据库中进行分类存储非常具有挑战性,通常需要将关键字、描述和元数据手动应用于每个对象。

向量数据库的相似性搜索功能,如余弦相似性、欧氏距离等度量来衡量向量间的相似性。这使得用户在处理如图像识别、推荐系统等变得非常高效。

3fae697a-355d-4772-85d9-cae8a49afdf4.png

排名和推荐引擎:该功能对于电商、搜索引擎来说非常有用,例如,微软的Bing,网易云音乐的推荐都应用了该技术。该功能主要基于用户最近匹配项查找相似项目,使向量数据库为用户提供相关的最佳内容选择,并且可以根据相似性分数对项目进行排名。

支持大规模数据:向量数据库具有良好的扩展性,能够支持大规模的向量数据存储和检索。这对于处理海量数据的大语言模型、机器学习、数据科研等非常有用。

索引与压缩技术:为了提高搜索速度和降低存储成本,向量数据库通常采用先进的索引和压缩技术。这些技术可以有效地降低数据的存储空间,提高查询速度,并降低内存占用。

分布式架构:为了实现高可用性和容错能力,向量数据库采用分布式架构。这使得用户可以在多个计算节点上分布存储和处理数据,提高系统的整体性能。

Pinecone和Weaviate简单介绍

根据公开资料显示,Pinecone创立于2019年总部位于美国纽约,主要提供向量数据库服务。Pinecone曾在2021年1月27日,获得1000万美元种子轮融资;2022年3月29日获得2800万美元A轮融资。开发者通过API就能轻松将向量搜索功能添加到应用程序中。官网地址:https://www.pinecone.io/

bc7c5dd3-ab0f-4f16-89da-b0f42775581d.png

Weaviate创立于2019年总部位于荷兰阿姆斯特丹,是一家开源向量数据库服务商。Weaviate主要提供的服务包括:向量搜索、混合搜索、生成搜索等服务。开源地址:https://github.com/weaviate/weaviate

a9db42a4-59a7-431a-9109-29fbcb975019.png

本文来源: AIGC开放社区,原标题:《ChatGPT引爆「向量数据库」赛道!两家公司共获10亿元融资》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK