5

向量搜索引擎/工具

 3 years ago
source link: https://jdhao.github.io/2021/07/24/vector_search_tools/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

向量搜索引擎/工具

2021-07-24973 words 2 mins read 24 times read

无论是推荐还是检索任务,都离不开向量检索引擎,当向量数量巨大的时候,使用精确搜索的时间成本对于用户来说无法接受,必然会用到近似最邻近搜索(approximate nearest neighbor, 简称 ANN),本文总结了一些常见的实现了 ANN 算法的向量搜索引擎/工具。

FLANN

FLANN 是 SIFT 发明者 Lowe 开发的近似搜索库。

Annoy

Annoy 是 spotify 开源的一款近似搜索工具,不支持分布式搜索。

Faiss

Faiss 是 Facebook AI Research 开源的一款向量搜索库,实现了多种向量索引算法。不过 Faiss 不支持分布式搜索,如果向量数据量很大,Faiss 就不合适了。

ScaNN

ScaNN 是谷歌在 2020 年发布的一款向量检索工具。

Vearch

Vearch 是京东开源的向量搜索框架,基于 Faiss 开发,我们目前用的向量搜索引擎就是 vearch,支持分布式搜索。

优点:Vearch 支持的距离有两种,L2 距离和内积(如果是归一化的向量,可以认为是余弦相似度),也支持根据标量字段进行过滤,总的来说功能还是可以的。

缺点:感觉 vearch 不是很稳定,文档写的也很粗糙,另外 vearch 虽然在维护中,开发不是非常活跃。

Milvus

Milvus 是近两年新开源的一款全新的向量搜索引擎,开发很活跃,感觉未来很有希望。目前 Milvus 2.0 还在 rc 阶段,支持了标量字段过滤功能,功能还不完善,例如现在还不支持删除特征操作,总体功能不如 vearch 丰富。

Milvus 搜索策略,不在 index 的向量 brute force,在 index 的向量是近似搜索,最后两者融合,参考这里讨论。

Milvus 系统设计论文,被 ACM SIGMOD 21 接收,见这里.

SPTAG

SPTAG (Space Partion Tree And Graph) 是微软发布的一款分布式向量搜索工具,知名度不是很高,没怎么听说有哪个公司在用?

vald 是 Go 语言实现的分布式向量检索系统,主要由日本开发人员开发,雅虎日本在使用,其他地方未看到使用案例。

Proxima

Proxima 是阿里巴巴开发的向量搜索引擎,介绍可以参考这篇文章,不过它没有开源,说自己很牛逼,具体如何不太清楚。

Author jdhao

LastMod 2021-07-26

License CC BY-NC-ND 4.0

Reward
基于内容的视频检索/视频指纹的应用

Show Git Diff When Doing Git Commit


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK