1

英特尔支持160亿参数大模型,携手广泛生态加速迈入AI时代-品玩

 1 year ago
source link: https://www.pingwest.com/a/287357
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

英特尔支持160亿参数大模型,携手广泛生态加速迈入AI时代-品玩

top-ad_1db2933.png

业界动态

英特尔支持160亿参数大模型,携手广泛生态加速迈入AI时代

随着Chat GPT的大热,AIGC成为当下人工智能领域最热门的发展方向,基于AI大模型的训练,利用现有的数据、算法和算力,生成更多数据或进行创作等等。

但不管是大家熟知的Chat GPT,还是百度的文心一言,都是需要强大的云端算力所支撑才能实现。而与那些依靠遥远的云端算力不同,英特尔则致力于让生成式AI在个人电脑上落地,通过本地设备的算力来实现这些。

在今年早些时候的一次技术分享会上,英特尔曾展示过基于OpenVINO,AI绘图开源模型Stable Diffusion可以使用开源图片编辑软件GIMP,在英特尔锐炫A750、A770等显卡上流畅运行,通过输入简单的文字,仅需很短的时间变可以实现创意绘图,帮助用户提升效率。

而最近的技术分享会上,英特尔更加详细的展示了它们在端侧AIGC的布局和成果,它们提供了从硬件到软件的全面支持。

首先是硬件层面,以目前第12代、第13代英特尔酷睿处理器和英特尔锐炫A系列显卡为代表的英特尔多款客户端芯片,都可以满足生成式AI(AIGC)对于高算力的需求。

同时,英特尔还通过软件生态的构建和模型优化,进一步推动新兴的生成式AI场景在个人电脑的落地,广泛覆盖轻薄本、全能本、游戏本等个人PC设备上。

article-body

英特尔基于OpenVINO PyTorch后端的方案,通过Pytorch API让社区开源模型能够很好地运行在英特尔的客户端处理器、集成显卡、独立显卡和专用AI引擎上。

像刚刚提到的Stable Diffusion,已经能通过上述方式,在英特尔客户端平台的CPU和GPU(包括集成显卡和独立显卡)上运行FP16精度的模型,用户可以在文字生成图片、图片生成图片以及局部修复等功能上获得良好的使用体验。

article-body

除此之外,英特尔还通过模型优化,降低了模型对硬件资源的需求,进而提升了模型的推理速度,让社区开源模型能够很好地运行在个人电脑上。

英特尔通过第13代英特尔酷睿处理器XPU的加速、low-bit量化以及其它软件层面的优化,让最高达160亿参数的大语言模型,通过BigDL-LLM框架运行在16GB及以上内存容量的个人电脑上,这点实属不易了。

尽管相比于GPT-3高达1750亿的参数量还有着数量级的差距,但毕竟它靠的只是一台个人电脑,而GPT-3的背后可是上万颗英伟达V100芯片。

英特尔适应了当下快速发展的大语言模型,兼容目前HuggingFace上的Transformers模型。

已经验证过的模型包括但不限于:LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper等。此外,英特尔还提供了易用的API接口(Transformers、LangChain),并支持Windows、Linux的操作系统。

在活动现场,笔者看到了依靠PC端侧算力的一些AIGC的演示案例,比如在一台搭载酷睿i7-13700K+Arc A750显卡的台式机上(选择ChatGLM2-6b模型),就可以实现非常丰富的功能,像聊天助手、情感分析、故事创作等,生成文字回答的速率都比较理想。

在聊天助手功能下,它做到了首个token first latency时间为215.3ms,后续After latency为55.63ms/token,生成的速度完全可以追上普通人的阅读速度,体验还是OK的。之后还测试了情感分析功能,first latency时间为249.8ms,After latency 56.01ms/token,生成速度同样蛮快的。

而在Stable Diffusion的图片生成这块,512x512分辨率的一张图耗时在2秒左右。

article-body

前段时间,Tom's Hardware还使用Automatic1111 WebUI OpenVINO测试了Arc A770 16GB和Arc A750的AI性能。

与5月份相比,两款显卡8月份的测试结果发生了很大的变化,与之前均落后于RTX 4060不同,如今它们均实现了一定幅度的超越,而且Arc A770 16GB已经接近RTX 4060Ti了。

两者在硬件性能这块是肯定不如RTX 4060的,而AI性能的领先应该要得益于英特尔在软件层面的持续优化。

article-body

当然,除了搭载独显的台式机能够玩AIGC外,轻薄本一样是OK的,现场这台设备搭载了酷睿i7-13700H处理器,拥有96EU的Iris Xe核显,同样能够通过基于AI绘图开源模型Stable Diffusion使用开源图片编辑软件生成图片,一张512x512分辨率的图片生成花费的时间为17秒左右,相比于Arc A770独显的2秒算不上快,复杂的描述则需要等待更长的时间。

我觉得基本在可用的这个级别上,对于这样一台轻薄本来说已经非常不容易了。

article-body

值得一提的是,英特尔的下一代处理器Meteor Lake具备独特的分离式模块架构的优势,为PC用户提供了以AI驱动的新功能,像Adobe Premiere Pro中的自动重新构图和场景编辑检测等多媒体功能,并实现更有效的机器学习加速。

它们会和产业合作伙伴一起向着规模化应用AI加速转型的方向前行,后续几代产品也将继续拓展AI能力,让更多享受到AI所带来的体验升级。

目前来看,英特尔在终端侧AIGC这块已经进行了非常多的布局,致力于推动生成式AI在个人PC上的落地,它们不仅提供了强大的硬件基础,还通过模型优化降低硬件资源的需求,让更多开源模型能够运行在个人PC上,13代酷睿处理器已经能够支持高达160亿参数的大语言模型。

从现场的演示可以看出,我觉得目前端侧的AIGC已经具备了一定的可用性和应用场景,下一步则需要去落实到具体的应用和功能上,在实际的场景中发挥作用。

英特尔也表示,目前正与PC产业众多合作伙伴通力合作,致力于让广大用户在日常生活和工作中,通过AI的辅助来提高效率,进而带来给革新性的PC体验,大家可以期待一下。


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK