4

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

 1 year ago
source link: https://www.qbitai.com/2023/06/59381.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

head.jpg白交 2023-06-06 16:55:23 来源:量子位

Arxiv上所有论文转成Token,加起来不过14.1GB而已。

白交 发自 凹非寺

量子位 | 公众号 QbitAI

Arxiv上所有论文转成Token,加起来不过14.1GB而已。

这是最新爆火开源计划亚历山大完成的壮举。

事实上,这还只是第一步。

他们最终是想要将整个互联网变成Tokens,换言之全都转化成ChatGPT等大模型理解这个世界的方式。

一旦这样的数据集诞生,那岂不是为开发出GPT-4这样的大模型又新增一大利器,上知天文下知地理指日可待了?!

消息一出,瞬间引发巨大关注。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

网友们赞叹,史诗般的

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元
四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

而这背后仅是四个平均年龄20岁的少年发起,目前Arxiv所有论文数据集已经发布,他们将于下周发布嵌入(Embedding)搜索平台。

从Arxiv上所有论文开始

超过400万个项目、6亿个token,30.7亿个向量维度。

这个名为亚历山大的开源计划,首先从Arxiv每篇论文上开始。

选择的方式是嵌入,简单来说,就是将现实世界的各种对象具象成计算机所能理解的向量。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

最经典的例子就是将原始图像表示为灰度像素。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

这种技术最大的特点就是能够表示出人类感知到的语义相似性。

比如,当有10个词表示同一事物时,很难通过关键词查找论文。但嵌入就可以完成,因此很适用于搜索、聚类、推荐和分类。

基于实用性和效率的考虑,开发团队只选择嵌入了论文的标题和摘要。

在测试各种模型之后,最终选择使用InstructorXL文本嵌入模型,通过简单地提供任务指令,而无需任何微调,适合于多种任务(比如分类、检索、聚类、文本评估等)和领域(比如科学、金融、医学等)》

下周他们将发布Arxiv搜索。目前为止的流程是,首先对100篇最接近的文章进行相似性搜索,然后即时计算这些内容的嵌入,并进行第二次更复杂的搜索。

最终目标是一整个互联网嵌入计划。

20岁少年的疯狂开源计划

之所以要开展这样一次疯狂的开源计划,主要有两方面的原因。

一方面是嵌入巨大的价值。世界上很多问题只是搜索、 聚类、推荐或分类,而这些事情嵌入都非常擅长。而且也如前所述,可以解决一些复杂的难题。

另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每1亿个Token只需1美元

但他们并没有找到任何开放的嵌入数据集,因此这样的组织应运而生。

接下来他们还将开放更多的数据集,而这些均由这些用户自行选择。在官网上除了已公开的数据集,剩下的几个待开源项目开启了投票通道。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

值得一提的是,背后是一群平均年龄仅为20岁的少年team完成的。

四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

而他们的团队名字同样也很霸气,Macrocosm(宏观世界)联盟。

只要你放大到足够远,人类就会成为一个单一的生物。

就官方介绍,他们致力于为ChatGPT和其他类似产品构建插件,同时也在开发核心产品,基于大模型的个人研究助理,帮助学习、教学和科研。

感兴趣的旁友可戳下方链接了解~

https://alex.macrocosm.so/download
参考链接:
[1]https://www.macrocosm.so/
[2]https://twitter.com/willdepue/status/1661781355452325889
[3]https://github.com/macrocosmcorp
[4]https://www.pinecone.io/learn/vector-embeddings/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK