3

赛道Hyper | 端侧AI模型:Meta加入角逐

 1 year ago
source link: https://awtmt.com/articles/3693852
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

赛道Hyper | 端侧AI模型:Meta加入角逐

周源 发表于 2023年07月23日 01:17
摘要:站在高通的肩膀上,端侧AI应用,指日可待?

ChatGPT虽好,奈何闭源,而且使用门槛太高(不友好),因此C端商业化难以大规模落地。

但在7月18日,Meta携手微软和高通,掀翻牌桌:微软旗下云服务Azure为Meta AI新一代开源大模型Llama 2提供云服务;同时,Llama 2还能在高通芯片上运行,实现智能端侧AI能力。

华尔街见闻注意到,OpenAI刚于7月22日宣布,下周将发布ChatGPT安卓App。这相当于直面Meta AI的端侧大模型C端应用挑战。

若端侧AI大模型真能实打实落地,那么以智能终端为代表的消费电子创新春天,将有望再次来临。

Meta和微软、高通想干嘛

开源大模型本身,已屡见不鲜,算不上新奇。

Llama,简单说,这是一个纯文本(只接受文本输入)的语义训练大模型,称为“Llama-Chat”可能更为准确。Llama的特点在于开源(GPT和PaLM闭源)和免费,初版于今年2月发布,训练时间是今年1-7月。整个过程用了330万个GPU小时,硬件用英伟达A100-80GB GPU,能耗350W-400W,训练总成本最高达到4500万美元。

Llama2全局批量规格(上下文长度)是4M tokens,比初代Llama提高1倍,与GPT-3.5等同,参数规模最高700亿(另包括70亿、130亿和340亿三种参数变体),训练语料规模为2万亿tokens。其中,700亿参数规模的以GQA(分组查询注意力机制:Grouped-Query Attention)提高推理可扩展性。

什么是token?

这是大模型处理与生成语言文本的基本单位。可以这么理解,用于训练的tokens越多,AI智能水平也相应越高。

照例做个对比:谷歌新一代大模型PaLM 2,训练语料规模3.6万亿tokens;GPT-3是3000亿,GPT-4据推测可能也突破了数万亿。

就AI能力看,Llama2与GPT-4仍有差距,也比不上Google的PaLM2。Llama 2性能难撼OpenAI的市场地位,通过免费商用,Meta却有望利用开源生态实现弯道超车。

这里有必要做进一步解释闭源模型的缺点。

最受关注的问题就一个:安全性。

用ChatGPT对话模型训练时,由于闭源,因此对话内容的数据,实际上相当于进了一个黑盒。

当涉及隐私或敏感信息,比如金融数据、个人隐私或商业产品秘密等信息,通过ChatGPT对话模型,很可能会在其他训练过程中成为“公共信息”而遭遇泄露。比如,著名的“ChatGPT Grandma Exploit”,就直接公开了微软的Windows 11的有效序列号。

在B端,这种黑盒效应的后果或许更严重。

相当多的企业,并不会限于调取标准LLM能力,他们会根据自己的业务需求,做LLM数据集的专有场景定制,以解决特定问题。但由于闭源黑盒问题,这些特定场景的业务数据很难保证私有用途。一旦泄露,很可能这些企业的业务会有重大损失,或优势地位不再。

此次Meta与微软和高通联手部署端侧模型,其意义远超模型升级。若结合高通在今年2月首次推出端侧AI模型能力演示,不难想像,消费电子——尤其是智能移动终端(手机,也包括IoT)新一轮技术创新浪潮风暴,已在快速酝酿。

Meta AI与微软的主要合作内容,是向Llama 2的全球开发者提供Azure云服务。也就是说,未来基于Windows系统,应用者都能用Llama 2的AI能力。这就大幅降低了C端应用AI LLM的门槛,无需用户自己配置软件环境。

据微软透露,Llama 2已针对Windows做了优化,能直接在Windows本地实现部署进而运行。

一旦微软推出基于Llama 2模型的Windows操作系统更新(Windows目前是全球市场占有率最高的操作系统),那么全球用微软视窗操作系统的PC用户,就能一键实现端侧AI模型的AGI能力,个性化的AI应用浪潮将风起云涌。

端侧和混合AI,孰重?

Meta AI与高通的合作更具有想象空间。

华尔街见闻从高通获悉,高通和Meta正在合作优化Meta Llama 2大语言模型直接在终端侧的执行,这个过程无需仅依赖云服务,就能在智能手机、PC、VR/AR头显和汽车等终端上运行Llama 2一类的生成式AI模型。这将支持开发者节省云成本,并为用户提供更加私密、可靠和个性化的体验。

高通计划支持基于Llama 2的终端侧AI部署,以开发全新的AI应用。这将支持B端公司、合作伙伴和开发者构建智能虚拟助手、生产力应用、内容创作工具和娱乐等用例。这些运行在骁龙芯片上的终端侧实现的新AI体验,可在没网络连接的区域、甚至是飞行模式下工作。

高通计划从2024年起,在搭载骁龙平台的终端上支持基于Llama 2的AI部署。现在开发者可以开始使用高通AI软件栈(Qualcomm AI Stack)面向终端侧AI做应用优化。高通AI软件栈是一套支持在骁龙平台上更高效处理AI的专用工具,让轻薄的小型终端也能支持终端侧AI。 

与部分应用技术公司在端侧尝试单点AI模型应用不一样,高通在此领域的布局极具深度。 

今年2月,高通第二代骁龙8移动平台已可支持参数超过10亿的AI模型运行,做了全球首次端侧运行超过10亿参数模型(Stable Diffusion)的演示。 

对于端侧能有效支持的模型规模,高通全球副总裁兼高通AI负责人侯纪磊认为,在广泛的用例中有很多基于10亿参数为单位,从10亿到100亿便能涵盖相当多数的生成式 Al,并可提供优异效果。 

6月中旬,高通也曾演示了ControlNet图像生成图像模型。这个模型拥有15亿参数,可完全在手机上运行。ControlNet是一项生成式AI解决方案,被称为语言-视觉模型(LVM),能通过调整输入图像和输入文本描述,更精准地控制生成图像。 

在这项演示中,高通只用不到12秒即可在移动终端上生成AI图像,无需访问任何云端,便能提供高效、有趣、可靠且私密的交互式用户体验。 

据侯纪磊透露,未来数月内,高通有望支持参数超过100亿的模型在终端侧运行,2024年将能支持参数超过200亿的模型。此外通过全栈式Al优化,未来也将进一步缩短大模型的推理时间。 

高通在做端侧AI大模型部署时的技术创新主要包括:高通AI模型增效工具包(AIMET)、高通AI软件栈和高通AI引擎。此外,高通AI研究的另一项全球首创的技术,即在移动终端上的1080p视频编码和解码过程。 

神经网络编解码器用途十分广泛:可针对特定视频需求做定制,通过生成式AI的优势对感知质量做优化,可扩展至全新模态,在通用AI硬件上运行。但同时,这也后悔带来难以在计算能力有限的终端上应对的诸多挑战。为此,高通设计了神经网络视频帧间压缩架构,支持在终端上做1080p视频编码。 

高通在端侧部署AI模型的技术虽然进展很快,但高通认为,混合AI才是AI的未来:混合AI架构在云端和边缘终端间分配并协调AI工作负载,云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作,能实现更强大、更高效且高度优化的AI。 

节省成本是混合AI在未来占据主流的主要推动因素。 

举例来说,据估计,每次基于生成式AI的网络搜索查询(Query),成本是传统搜索的10倍。混合AI将支持生成式AI开发者和提供商利用边缘终端的计算能力降低成本。混合AI架构或终端侧AI能在全球范围带来高性能、个性化、隐私和安全等优势。 

若高通的判断更符合未来AI应用的发展方向,那么云计算和端侧AI计算必然会实现融合,而端侧AI模型以何种形式(系统级还是单个节点?)实现持续落地,其间也充满新的行业或商业模式的全新技术创新空间。无论如何,以IoT或智能手机为代表的消费电子,新一轮技术创新浪潮,已近在眼前。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
AI全知道

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK