7

人均AI大手子不是梦,真正可商用的开源AI大模型Dolly 2.0来了!

 1 year ago
source link: http://www.gamelook.com.cn/2023/04/515145
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

人均AI大手子不是梦,真正可商用的开源AI大模型Dolly 2.0来了!

2023-04-16 • 海外企业新闻

任何人都可因任何目的使用、修改或扩展这个数据集。

【GameLook专稿,未经授权不得转载!】

GameLook报道/ChatGPT蹿红之后,不只自己红遍全球,连带着也催生了大语言模型的崛起,巨头们都想要在红到发紫的市场分一杯羹。

尽管OpenAI自GPT-2之后就不再开源,但为了不被OpenAI母公司微软赢家通吃,前不久巨头如Meta,也将自家大语言模型LLaMA开源,并很快带动了一批由高校主导改进的大语言模型的面世,比如Alpaca、Koala、Vicuna等等。

但商业毕竟不是做慈善,LLaMA的开源也有些扭捏——由于使用了限制商业用途的数据集,对LLaMA及其改进模型的使用,都被限制在学术研究的范围内。Alpaca等模型相当于给LLaMA打了波免费广告,更多有志于趟AI这趟浑水的中小公司只能干瞪眼。

也跟着这波浪潮推出改进模型Dolly的创业公司Databricks有心改变这一现状,于是祭出了新的大模型Dolly 2.0。

lazy.png

Dolly 2.0是一个基于开源EleutherAI pythia 模型系列,使用120亿参数的大语言模型。与GPT-3.5使用的1750亿参数比,Dolly 2.0并不算大,而这也是Databricks故意为之:“其他人都想做的更大,但我们对更小的东西感兴趣。”

还是因为,Dolly 2.0的数据集真是手搓出来的,

与一代不同,Dolly 2.0使用的数据集完全来自Databricks的员工,因此Databricks表示,Dolly 2.0 是“业内第一个开源、遵循指令的大语言模型”,其使用的数据集也是“首个开源的、由人类生成的指令数据集”。

根据OpenAI发布的论文,早期的InstructGPT 模型基于了一个1.3万指令遵循行为演示组成的数据集上训练而来。为此Databricks在内部组织了一次动员,最终在奖励的鼓舞下,5000多名作为标注者的Databricks员工在今年3月和4月中的一周时间,生成了一个规模1.5万个的指令记录语料库,比OpenAI最初的版本还要好。

相较训练数据截止到2021年9月的GPT-4,Dolly 2.0时效性更强,且由于专业创作,也能减少因为引用错误答案而胡编乱造的概率。按照Databricks的说法,这些训练数据“自然、富有表现力”,内容从头脑风暴到内容生成,再到信息提取和总结无所不包。

因此Databricks 首席执行官 Ali Ghodsi 表示,虽然此前已经有其他商用的大语言模型,但“它们不会像 Dolly 2.0 那样与你交谈”。

而根据该数据集的许可条款,任何人都可因任何目的使用、修改或扩展这个数据集。当然,任何目的包括商用。

如若转载,请注明出处:http://www.gamelook.com.cn/2023/04/515145


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK