手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天,参数规模仅27亿
source link: https://awtmt.com/articles/3704124
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天,参数规模仅27亿
智东西12月13日报道,昨日晚间,微软又亮出了小模型大招!
微软发布了27亿参数规模的小语言模型Phi-2,经研究人员测试,Phi-2在参数规模小于130亿的模型中展示了最先进性能。
从性能表现看,Phi-2在Big Bench Hard(BBH)、常识推理、语言理解、数学和编码基准测试中,其平均性能得分已经超过70亿、130亿参数规模的Mistral和Llama 2,在部分基准测试中超过谷歌的Gemini Nano 2。
Phi-2还有一大优势是,因为参数规模足够小,其可以在笔记本电脑、手机等移动设备上运行。
过去几个月间,微软研究院的机器学习基础团队陆续发布了小型语言模型(SLM)Phi系列。
其中,第一个模型为13亿参数规模的Phi-1,官方博客称,Phi-1在SLM中的Python编码方面表现最好,在HumanEval和MBPP基准测试上尤甚。第二个模型为13亿参数规模的Phi-1.5,这个模型的重点为常识推理和语言理解能力。
现在微软发布的Phi-2能为研究人员探索机器可解释性、安全性改进或对各种任务的微调实验上提供帮助,目前,Phi-2已经从Azure AI Studio模型目录中开放给研究人员。
一些大模型的参数规模达到数千亿的量级,使得其涌现出众多新兴能力,那么,是否可以通过改变训练策略等方式让更小的参数实现这些能力?微软的小型语言模型(SLM)系列或许是这一问题的答案。
Phi-2是一个基于Transformer架构的模型,具有下一个单词预测目标,在用于NLP和编码的合成数据集和Web数据集的混合上多次传递的1.4T tokens上进行训练。
Phi-2在96个A100 GPU上训练了14天,作为一个基础模型,其没有通过人类反馈强化学习(RLHF)进行对齐,也没有进行指令微调。
尽管如此,与经过调整的现有开源模型Llama 2-7B相比,研究人员观察到在避免生成有攻击性、有害和内容有偏差方面Phi-2的表现也不差。
研究人员根据ToxiGen的13个人口统计数据计算的安全评分,他们选择6541个句子的子集,并根据困惑度和句子“毒性”进行0到1之间的评分。分数高就说明,模型产生有攻击性、有害句子的可能性较小。
▲Llama 2与Phi-2在生成有攻击性、有害和内容有偏差方面性能比较(图源:微软官方博客)
微软使用Phi-2打破了传统语言模型缩放定律,其中有两个关键环节:
第一是训练数据的质量对模型的性能至关重要。微软的模型训练数据包含专门创建的合成数据集,用于教授模型常识推理,还包括科学、心理等领域的常识。
研究人员还挑选了一些网络数据进一步扩充训练语料库,并基于内容的价值和质量进行了数据过滤。
此外,从13亿参数规模的Phi-1.5开始,微软的研究人员实现了规模化的知识转移,将Phi-1.5的知识嵌入到27亿参数的Phi-2中。这种方法不仅加速了训练收敛,而且提高了Phi-2的基准分数。
▲Phi-2和Phi-1.5比较(图源:微软官方博客)
微软总结了Phi-2在学术基准上与主流语言模型的性能表现对比。
其基准测试涵盖Big Bench Hard(BBH数据集)以及PIQA、WinoGrande、ARC easy、Challenge、SIQA的常识推理、HellaSwag、OpenBookQA、MMLU、SQuADv2的语言理解数据集,GSM8k数学数据集和HumanEval、MBPP的编码数据集等。
27亿参数规模的Phi-2,在BBH、常识推理、语言理解、数学、编码各项基准测评上都超过了70亿、130亿参数规模的Mistral和Llama 2。
相比于参数规模差距在25倍的700亿参数Llama 2,Phi-2在编码、数学等多步推理任务上表现更好。
▲Llama 2、Mistral、Phi-2性能比较(图源:微软官方博客)
此外,微软还比较了Phi-2与谷歌最近发布的Gemini Nano 2,谷歌发布的模型参数规模为32.5亿,Phi-2的性能表现部分优于Gemini Nano 2。
▲Phi-2、Gemini Nano 2性能比较(图源:微软官方博客)
考虑到一些公共基准测试的数据可能会泄漏到训练数据中,微软对第一个模型Phi-1进行了广泛的净化研究以排除这种可能性。
基于判断语言模型的最佳方法是在具体用例上对其进行测试的考量,研究人员使用了多个微软内部专有数据集和任务评估了Phi-2,并再次将其与Mistral和Llama 2进行比较,其结果为,平均而言Phi 2优于Mistral-7B,后者优于70亿、130亿、730亿参数规模的Llama-2模型。
除了基准测试外,研究人员还测试了社区内的一些常用提示,他们观察到的表现也与基准测试的结果预期一致。
其中,研究人员测试了用于评估谷歌Gemini Ultra模型在解决物理问题方面能力的问题。
与Gemini的测试类似,研究人员进一步向Phi-2询问学生的错误答案,来确认它是否能识别出错误所在。
不过,从输出结果来看,这并不完全是与Gemini报告中描述的Gemini Ultra输出的同类比较,Gemini测评中学生的答案上传了手写文本的图像,Phi-2的测试采用的是原始文本。
Phi-2的参数规模仅有27亿,但相比于参数规模更大的70亿、130亿模型,其性能表现仍不逊色。微软专注于小模型市场的布局,也印证了大模型时代小模型的价值。
微软与OpenAI的紧密合作,使得GPT模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的Phi系列,能进一步抢占开源模型长尾市场。不过从目前来看,Phi系列仅被允许用于研究目的。
从市场来看,越来越多的玩家开始探索在手机等移动设备上部署大模型,微软此举或许也会加速模型能力在端侧的应用。
本文作者: 程茜,来源:智东西 (ID:zhidxcom),原文标题:《手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天,参数规模仅27亿》
Recommend
-
102
3D 打印技术,相信大家都已经耳熟能详了。但 2.5D 打印呢?这听起来很蠢的一个名字,可是要为工业设计行业带来变革啊!卡西欧在过去的 CEATEC 展览上就展示了使用 Mofrel 打印技术的不同制作品,他们成功为平白无奇的纸张上,带来多变的质感。%Slideshow-795566%
-
80
Insta360 的 Nano S 相机能拍摄 4K 360 度全景视频2018/01/09 09:23|In
-
55
“真正的魅友不曾在你辉煌时慕名而来,也未曾在你低谷时离你而去”。
-
24
5月23日,余承东在微博上爆料称,华为将带来一项“很吓人的技术”,该技术是华为手机2018具有划时代意义的大技术,是华为手机技术的重大突破,它将通过底层技术大幅提升产品的性能体验。余承东透露:“有了‘很吓人的技术’,其他手机速度跟我们手机的速度相比,就等于...
-
11
机器之心报道 作者:蛋酱、张倩 现在的模型动辄数百、数千亿参数,普通人训不动怎么办? 前不久,谷歌发布了参数量为 1.6 万亿的语言模型Swith Transformer,将 GPT-3 创下的参数量记录(1750 亿)推至新高...
-
8
微软朱晨光:预训练模型下一步怎么走?突破PLM的「不可能三角」-51CTO.COM 微软朱晨光:预训练模型下一步怎么走?突破PLM的「不可能三角」 作者:机器之心 2022-04-25 14:51:51 文章虽然不长短短...
-
0
参数量1/50,Meta发布110亿参数模型,击败谷歌PaLM 作者:机器之心 2022-08-18 15:13:37 Yann LeCun 表示:Atlas 是一个不太大的语言模型,具有 110 亿参数,在问答和事实核查方面击败了「大家伙」。
-
8
华为P60 Pro爆料参数汇总 小米13击败iPhone 14PM [手机中国早报]近段时间网上关于华为P60系列的爆料逐渐增多,...
-
7
大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友 作者:白交 2023-10-16 12:31:17 这是来自谷歌CMU最新研究成果。据介绍,这是语言模型第一次在标志性的ImageNet基准上击败扩散模型。...
-
5
360周鸿祎谈视频模型Sora:未必短期能击败TikTok 评论(5)...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK