0

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

 3 months ago
source link: https://www.qbitai.com/2024/03/127100.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

head.jpg克雷西 2024-03-11 15:31:43 来源:量子位

六项测试全面领先

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

向量数据库排行榜的头号交椅,再次易主——

来自零一万物最新研发的高性能向量数据库笛卡尔(Descartes),登顶权威测评榜单。

在此之前,榜单里六个数据集的榜首分属于两家厂商,而笛卡尔的包揽结束了这种“分庭抗礼”的局面,成为了大一统的“新王”。

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

在权威的ANN-Benchmark榜单中(GitHub 4.4k星),笛卡尔直接包揽了六个数据集的第一名。

而且新前两名的差距也被大幅拉开——相比比前SOTA,笛卡尔的成绩最高提升了286%。

那么,笛卡尔在测试中到底交出了怎样的答卷呢?

包揽权威榜单六项第一

笛卡尔登上的ANN-Benchmarks榜单,包含了六大测试数据集,可以展示不同算法在不同数据集下的表现。

而笛卡尔参与全部六个数据集评测,它们主要考察在不同召回下的查询性能。

结果,笛卡尔(图中右上红色曲线)在这六个数据集的评测中,都取得了最好成绩。

下图为对数坐标系,横坐标代表召回,纵坐标代表QPS(每秒处理的请求数),越往右上角意味着算法性能越好。

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

而“吞吐量QPS” 是衡量信息检索系统(例如搜索引擎或数据库)查询处理能力的重要指标。

在原榜单TOP1基础上,零一万物笛卡尔向量数据库实现了显著性能提升,部分数据集上的性能提升超过2倍以上,在gist-960-euclidean数据集维度更大幅领先榜单原TOP1 286%。

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

那么,在笛卡尔优异表现的背后,采用了哪些技术呢?

采用全栈向量技术增强性能

在零一万物团队看来,增强向量检索能力,就是在解决两个问题,一是减少考察的候选集,二是降低单个向量计算的复杂度

针对其中第一个问题,零一万物又采用了两大策略来解决。

首先是采用全导航图技术,构建全局多层缩略图,实现图上坐标系导航,既能保证精度,又能裁剪大量无关向量,解决了哈希、KD-Tree、VP-Tree等传统方式导航效果不够精确、裁剪力度不够的问题。

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

另一方面,是零一万物自研的自适应邻居选择策略。

它突破了以往仅依赖真实top-k或固定边选择策略的局限,使每个节点可以根据自身及邻居的分布特征,动态地选取最佳邻居边。

这种方式可以更快收敛接近目标向量,从而让RAG向量检索性能提高15%-30%。

而针对第二个问题,零一万物采取的是两级量化方案,从而降低计算复杂度。

同时,利用列式存储充分利用SIMD的并发能力,进一步发挥硬件能力,相比传统PQ查表,性能还能大幅提升到2-3倍。

除此之外,零一万物还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

最终,笛卡尔的检索精度超过了99%,而千万级数据库响应时间仅为毫秒量级。

零一万物表示,笛卡尔向量数据库将用在近期即将正式亮相的AI产品中,未来也将结合工具提供给开发者。

大模型重要的基础设施

事实上,以笛卡尔为代表,向量数据库在整个大模型行业中,本就是一项热门技术。

它是检索增强生成(RAG)技术的核心,用来存储、管理、查询和检索向量化的非结构化数据

换言之,也就是大模型形成“长期记忆”的关键,因此也被称为“大模型的海马体”。

除了记忆能力,向量数据库还解决了大模型实时信息更新的问题,还能提高推理效率并降低幻觉,同时在隐私数据不能用于训练时担任信息传递载体……

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

作为大模型基础设施,无论是在大厂还是初创公司,向量数据库都是一个热门的研究方向。

Google、微软、Meta等传统互联网大厂,都相继在其云服务平台中推出了自己的相关产品。

初创公司方面,Zilliz、Pinecone、Weaviate、Qdrant等公司也是异军突起。

比如成立于上海的Zilliz,其所研发的向量数据库在笛卡尔出现之前就是ANN-Benchmark榜上的王者。

阿里云、腾讯云、微软Azure、亚马逊AWS等国内外知名云服务厂商,都部署了Zilliz的产品。

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

而除了产业界,向量数据库在投资人眼中同样具有重要地位。

比如前面提到的Zilliz,总计融资金额就已经超过了1.1亿美元。

OpenAI的向量数据库合作方Pinecone,成立至今一共完成四轮融资,总金额更是达到了1.38亿美元。

而像Weaviate、Qdrant等小一些的创业公司,融资金额也都达到了数千万美元。

向量数据库王冠易主!零一万物新成果登顶权威榜单,比前SOTA领先最高286%

总之,随着大模型发展进入白热化阶段,零一万物在这时加入这场竞争,向量数据库之后格局会如何变化?值得期待。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK