端侧AI，如何化解国内算力之困？

解决了算力之困后，端侧大模型将有可能最先引爆本轮AI革命的盈利点。

算力和数据的天花板，决定了本轮的AI热潮究竟能走多远。

但不幸的是，对国内而言，其中的算力天花板，离“到顶”已经越来越近。

就在8月初，美签署最新行政令，禁止美国对中国计算机芯片等敏感技术进行一些新投资，重点将在限制美国资本对于中国半导体设计软件和制造硬件的投资。

此消息一出，不少人顿感：国内算力危矣！

而机警的大厂，也开始了各自未雨绸缪的准备。

《金融时报》的一篇报道称，国内包括阿里、字节在内的科技巨头，已经订购50亿美元的英伟达的A800芯片，来面对训练大语言模型需要的算力挑战。

按照此前媒体报道，目前中国企业GPU芯片持有量超过1万枚的不超过5家，拥有1万枚A100的至多1家。

那么，在愈发紧张的算力之下，中国AI的前途、命运将如何发展？

短期来看，算力之困对于业内，似乎是个无解的问题。然而，技术的发展，有时就像生物的进化，当一种技术在面临“生存挑战”时，也会由于选择压力而发生一系列的突变。

而对国内而言，这样的突变方向，也许就是分散于各个终端里的端侧大模型。

端侧大模型，如何解算力之困？

端侧大模型的发展，对国内算力突围有着怎样的意义？这还得从目前云计算的需求说起。

当下，面对大模型高昂的算力成本，许多致力于涉足AI领域，但却算力匮乏的企业，往往都选择了租用云算力的方式，来满足训练需求。

在此背景下，昇腾AI集群这样的云服务平台也趁势而起，成为了孵化国内各个大模型的“母工厂”。

然而，即使是云计算本身，也需要大量的GPU支撑。

如果云服务商无法获取足够的GPU资源，那么它们也无法为国内AI企业提供高效、可靠的云计算服务。

而端侧AI最重要的意义，就在于分担了目前国内云计算的压力。

倘若我们将十几亿分散的智能手机，当成了一个个潜在的、拥有大量闲置算力的移动计算单元，那么部署在手机中的端侧AI，就能在这些设备闲置时间里，将这些碎片化、分布式算力利用起来，产生颇为可观的规模效应。

具体来说，联邦计算，就是这样为人熟知的分布式计算方式之一。

所谓联邦计算，简而言之，就是在数据源（例如用户设备）上进行模型的局部训练，然后将这些局部模型的参数或更新聚合到中央服务器上，形成一个“全局模型”。

相比于集中式的训练，这种分布式的方式可以更好地利用各个设备的计算能力，降低中央服务器的算力需求。

在这样的过程中，依靠终端设备（例如手机）的庞大数量规模，每个“全局模型”的训练成本，在无意中便被不断摊薄了。

因为每个“小模型”的训练只需要消耗端侧设备的计算资源，而不需要传输大量的原始数据到云端。这样，就可以节省网络带宽和云端存储空间，也可以减少云端服务器的计算压力。更重要的是，与云端GPU这类高成本的训练方式相比，由于端侧AI芯片往往是针对特定的AI应用和算法，进行优化和定制，因此其往往有着相对更明确的“回血”途径。

例如，前段时间，爆火的妙鸭相机，大家应该都听说了。在其最受追捧的初期，成千上万的用户涌进应用中，高峰期一度有4000-5000人排队，需要等待10多个小时才能出片。

之后，是阿里云进行了紧急扩容，才勉强应对了这暴涨数百倍的算力需求。

但倘若用户不用在云端等待，而是直接在本地，或者通过端云协同的方式，就能实现这样的生成效果呢？

一种可能的方式，是先在端侧生成低分辨率的图片，之后再上传到云端，用较少的资源对图片进行清晰化处理。

如此一来，既降低了云端算力的负担，又在一定程度上保障了生成的质量、效率。

在当下的AI应用开发中，开发者不仅需要支付云端大模型API接口的成本，还得自己租用服务器，保证密钥安全。

如果是文字生成类AI，文字量大的话，相应的token也是一笔不小的开支。

而随着算力门槛的降低，众多AI应用的开发者，将不再被云端算力的成本所缚，而只需调用端侧大模型提供的开放API，就可以快速开发各类AI应用。

在此基础上，一个开放的、多样化的AI应用生态，就随着端侧大模型的普及，而应运而生了。

以“偏”补“全”的端侧芯片

AI应用井喷的时代似乎近在眼前，但要想让每台手机都标配一个大模型，前面还有道难以回避的门槛——硬件基础。

由于芯片架构不同，在端侧部署时，往往需要对模型网络结构进行一通修改才能勉强“上车”。

具体来说，目前GPT这类主流AI所使用的Transformer架构，往往部署于云端服务器。

这是因为GPU对于MHA结构（Transformer中的多头注意力机制）计算支持更友好。而端侧AI的芯片，则主要侧重于CNN（卷积神经网络）的结构。

如果将前者强行转移到端侧，带来的一个明显问题，就是模型精度下降。

那么有没有什么办法，能让大模型在进行端侧化改造的同时，仍能保证其精度呢？

爱芯元智推出的端侧芯片AX650N，似乎提供了一个可能的路线。

AX650N芯片拥有自研混合精度NPU和爱芯智眸AI-ISP两大核心技术，其对Transformer结构的网络进行了专门的优化，在其NPU中增加了专门用于自注意力计算的单元，可以大幅提升Transformer网络的运行速度和准确率。

凭借着这类针对端侧的优化技术，AX650N已经做到了在端侧部署原版Swin Transformer只需要5分钟，而跑起私有模型，只要1个小时就能搞定。

但尽管如此，受限于架构和内存，这样的优化，仅仅只是针对视觉大模型方向而言的，因为从硬件算力上来说，端侧AI芯片，始终难以做到GPU芯片那样“面面俱到”的通用性、兼容性。

既然如此，国内的大模型之困，是否就指望不上它了？

其实不然，从量的角度来讲，边缘侧、端侧的需求一定比云侧更大，毕竟边缘侧、端侧设备会更多。

而在这众多的需求中，只要使用了大模型的终端（如手机、智能音箱），能做到两点，那么国内大模型在应用层，就有盘活的可能。

其中第一点，就是够降低人们获取信息、知识的成本。

倘若以后人们打开手机或者其他终端，就能获得一个诸如私人医生和律师、厨师的AI助理，能为我们提供成本低廉、快速的咨询服务，那么人们就会对其产生依赖。

因为从行为学上来说，人总归是有惰性的。

虽然目前的某些律所，也能为人们提供免费的咨询服务，但这其中却包含了无形的时间成本、沟通成本。

正如互联网出现后，虽然人们仍能通过纸制地图进行导航，但大部分人却再也离不开手机上的定位功能一样。

从某种程度上说，压缩了各种知识、智能的端侧模型，将会重复这一过程。

第二点，则是个性化功能的普及。

在“前AI时代”，个性化定制的大规模推广，是一件不可想象的事。

在没有AI技术支持的情况下，实现个性化定制通常需要大量的人力和时间投入。为每个用户提供个性化的产品或服务，往往需要大量的人工处理。

然而，随着本轮AI革命的到来，人们已经在应用层，看到了AI用于个性化、定制化服务的可能。

例如character.Ai一类的应用，支持用户根据自己的需求、偏好，量身定制一个“AI伴侣”。试想一下，倘若这样的定制化服务进入到了端侧，端侧大模型就能不断收集用户数据，再进行反馈、训练，并最终打造出一个独一无二的、贴身的AI助手。

而这样量身定制的体验，显然比大规模的标准化服务，更具吸引力。

总结

尽管在模型规模、性能等方面，端侧大模型目前还远无法与云端大模型相比，但分布式的算力格局，以及庞大的规模效应，都将大大降低目前国内云端算力的负担。

而在算力成本降低之后，大量基于API接口的AI应用，也得以通过一个个部署在本地的端侧大模型不断涌现。

在应用大爆发的背景下，一些捕捉到先机的应用，就会基于端侧大模型实时响应、个性化定制的功能，引爆本轮AI革命真正的盈利点。

而这，正是无数人在这股AI浪潮中苦苦追寻的。

网站编辑：郭靖

端侧AI，如何化解国内算力之困？

端侧AI，如何化解国内算力之困？

解决了算力之困后，端侧大模型将有可能最先引爆本轮AI革命的盈利点。

Recommend

Rimac Nevera sets new record at Nürburgring, celebrates with a limited run 'Time...

引领文旅数字化升级，专为文旅展陈打造的Xrany X1智能眼镜正式发布！-品玩

How to Protect Your Passwords from an AI Attack

Apparent Images & Specs Of Samsung Headset Prototype Leak

Synopsys Could Sell More to China Without Export Rules, CEO Says

Binance Connect to Cease Operations on August 16, Citing Evolving Market Dynamic...

How Schell Games Crafted Cog In The Machine Song For I Expect You To Die 3&#...

Ripple Labs Isn't Amused By SEC's Plan To Fight The XRP Verdict – CryptoMode

Toy Trains Wants To Recreate Your Childhood Train Sets In VR

When User Research Becomes a Barrier to Success

About Joyk