5

我们为最"in"大模型,找到了另外一条解题思路 | 量子位

 10 months ago
source link: https://www.qbitai.com/2023/08/77840.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

我们为最“in”大模型,找到了另外一条解题思路

head.jpg十三 2023-08-19 10:52:11 来源:量子位

最Intel的创新解决方案

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

“in”,是近年来兴起的一个网络用语,通常是in fashion的简称,意指走在潮流最前沿。

随着GPT的爆火,生成式AI正式进入全球科技舞台的中央,大模型也已经成为当下最“in”的话题。

用“百模大战”来形容当下大模型的火热程度一点也不夸张。据目前市场已公布的大模型产品来看,10亿参数规模以上的大模型产品已多达80个。

一些企业更是将大模型视为人工智能的核心,认为这很可能是引领第四次工业革命的颠覆性创新技术,将推动各个行业的变革。

不过大模型已不再是你以为的“大力出奇迹”,它的发展正在迎来一些微妙的变化——

Smaller is Better。

这并非是无中生有,此话正是出自HuggingFace首席布道师Julien Simon。

但纵观大模型(尤其是大语言模型,以下简称为:LLM)的发展,参数体量逐渐庞大似乎成为了一种大趋势,动辄便是千亿甚至万亿的量级:

我们为最“in”大模型,找到了另外一条解题思路

△图源:Information is Beautiful(数据截至2023年7月27日)

那么Simon如此“背道而驰”的观点,又是从何而来?

我们都知道模型的参数体量越大,它们从大量非结构化数据中学习的表现通常就会越出众,但随之而来的一个老大难问题便是需要大量的计算能力。

这也就是为什么现在人们谈及大模型时,往往都绕不开“大算力”的原因。

(甚至连OpenAI的CEO也在为算力发愁……)

我们为最“in”大模型,找到了另外一条解题思路

因此,Simon给出了新的解法,让大模型“瘦身”(Smaller)的同时还能提高效率(Better)。

并且这并非空口无凭,有测试数据为证:

我们为最“in”大模型,找到了另外一条解题思路

从结果上来看,测试的各种大模型有的被“瘦身”到了先前的一半,但效率反倒提了上来。

更直观一点的,我们可以看下文本回答的效果:

我们为最“in”大模型,找到了另外一条解题思路

大模型“瘦身”后自然语言对话效果

这便是当下大模型很“in”的一种打开方式。

站在现在这个时间节点,我们也想以《最“in”大模型》专栏的形式,提供给大家两个更in的解题思路:inside intelin practice。以此来对大模型这个科技圈最in的顶流做一次全新角度的解析和展望。

我们为最“in”大模型,找到了另外一条解题思路

最Inside Intel的创新解决方案

不仅仅是在这一波大模型热潮,自深度学习爆火以来,似乎GPU相比其它硬件来说更受AI圈的青睐。

究其原因,无外乎以下几点:

  • 并行计算能力:GPU可以同时进行大模型训练和推理,加速计算过程。
  • 加速训练速度:在传统CPU上进行大型模型训练非常耗时,使用GPU可以缩短训练时间,加速模型研究和开发。
  • 适应深度学习计算:GPU高度并行的架构在深度学习的计算中表现出色,特别适合处理神经网络的计算需求。

但开发人员往往会小瞧CPU这个“潜力股”。

没错,让大模型发展发生微妙变化的解法之一,正是CPU

例如在上文Simon的例子中,他先是用SmoothQuant这种训练后量化的方法来为LLM“瘦身”:将LLM通常进行训练的16位浮点参数(又名 FP16/BF16)替换为8位整数,以便更容易执行任务,和减少需要的内存。

我们为最“in”大模型,找到了另外一条解题思路

而后Simon选择实验的CPU,正是英特尔的第四代至强®️ 可扩展处理器,其可在AI推理方面,为大模型的落地部署提供更易获取、应用门槛更低和性价比更高的平台。

但是,如果你还以为英特尔只有CPU能来跑AI的话,那就又错了。

就在上个月,英特尔新鲜出炉了AI专用加速器——Habana®️ Gaudi®️2,专为训练LLM而构建,并为数据中心大规模扩展而设计,同时为深度学习推理和训练工作负载提供更具性价比的解决方案。

重点来了!

在MLPerf最新报告中的多种训练和推理基准测试中,与其他面向大规模生成式AI和LLM的产品相比,Gaudi®️2拥有卓越的性能,甚至可以表现得比GPU更“专业”。

据悉,预计今年9月Gaudi®️2便可支持FP8,在帮助用户提升运营效率的同时,即将迎来更优的性价比:

我们为最“in”大模型,找到了另外一条解题思路

客观地说,相较于主流大模型硬件平台,CPU虽更容易被获取和部署,但其提供的解法仍会更倾向于那些要求部署和应用门槛尽可能低,同时性价比较高的推理场景;但英特尔已发布的Gaudi®️2和即将登场的其他加速芯片,例如数据中心GPU,则有望实现进一步的补全,进而形成CPU可在主打通用计算时兼顾AI加速,GPU提供通用加速支持,即兼顾科学计算和AI加速,而Gaudi®️ 则能一心一意专攻深度学习加速的一整套异构硬件产品布局,这种布局的意义,就在于会提供更加多样化、更具性价比的解决方案。

就更别提英特尔还会为多种异构硬件产品搭配可以进行统一编程、轻松迁移并能跨异构调度算力资源的oneAPI软件工具包了。

英特尔未来在AI或整个企业计算领域的异构多芯布局,已经在脚踏实地地走向现实。其对CPU和AI加速器等硬件的定向优化,也让大模型出现了更多的可能性。

最in practice的落地实战指南

当然,事实上相比于现有的主流大模型硬件平台,大家对英特尔硬件在大模型上的优化还缺乏了解。本期专栏就将直接上干货,为你手把手带来最in practice的实战指南。

如上文中提到的利用第四代至强®️ 可扩展处理器对LLM进行训练后量化的实验,在本期专栏的第一篇文章中,甚至还直接附上了代码:

我们为最“in”大模型,找到了另外一条解题思路

△启用增强型 SmoothQuant 的样例代码

是不是有一种“开箱即用”的味道了?

同时,本期专栏也非常与时俱进地会以ChatGLM、BLOOMZ、PyTorch minGPT主流大模型为案例,step by step教你实战优化之道。

当然,面对实践中可能会涉及的更加复杂的问题,我们也不仅局限于提供硬件加速指南,而是会考虑到更多维度,例如LLM如何与大数据平台进行对接,以及如何更好地进行数据安全或隐私方面的保护。

例如系列第二篇文章中提到的:将至强CPU平台内置的可信执行环境(Trusted Execution Environment,TEE)类技术——SGX用于为LLM提供隐私和数据保护创新解决方案,就可以更好地保障数据在LLM模型训练和推理过程中的保密性。

最后一点,就像我们前文提到的,英特尔加速AI已经不再只有CPU这一个选项,所以Gaudi®️2虽然刚发布不久,但在本次专栏中也会露面,而且同样是落在实战层面,敬请期待。

专栏中涉及CPU的实战分享,更多是希望帮到真正要在业务中落地应用LLM的最终用户,毕竟想要在更为广泛的行业中普及AI应用,如能充分利用部署更为广泛的、基于CPU的IT基础设施和架构,是更有利于达成降本增效的目标的。

期待这些分享能帮助更多部署了英特尔®️平台、对LLM跃跃欲试的用户,能在第一时间开展相关的探索和实践,让大模型Go to vertical + in practice。

基于行业观察、实战案例,我们也会从中迸发出更多大模型加速的灵感。

如大模型“瘦身”提高效率,定然还会有更多更加优化的解决方案。英特尔为此专门开设了GitHub问题反馈,希望与您共同探讨优化之道:https://github.com/intel/neural-compressor/issues

我们为最“in”大模型,找到了另外一条解题思路

总而言之,英特尔采用多种处理器和加速器,并配以统一且易用的软件工具来实现优化,已然是为大模型的发展开辟了一条崭新的路径。

这背后的意义,正如HuggingFace的Simon所述:

一家独大,从来不是一件好事。

言外之意很明显了:多元化的蓬勃发展才是长久之道。

本次的《最“in”大模型》专栏,也许仅仅是一个通向多元化未来的开始。

欢迎关注专栏,也非常期待可以和大家深入探讨一波。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK