1

阿里进入大模型时代

 1 year ago
source link: https://www.chinaventure.com.cn/news/78-20230412-374640.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

阿里进入大模型时代

这波AI热潮,的确是一个换道超车的机会,模型能力、基础设施、开发者生态,都有可能决定云厂商的未来。

AI大模型的浪潮,似乎正将所有互联网厂商拉到同一起跑线上。

“面对AI时代,所有产品都值得用大模型重做一次。”在4月11日的2023阿里云峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇说。

在本届阿里云峰会上,张勇宣布,阿里巴巴所有产品未来都将接入大模型,全面升级。

图片

这样的动作,意味着在阿里云,AI大模型将更像是一个应用型平台,北京软件和信息服务业协会首席研究员仓剑将其比喻为“超级APP”。阿里想打造的,正是这样一个App的底座,云业务则是这个生态的基础。

“阿里云非常幸运,我们赶上了中国过去十几年互联网产业热潮。”张勇如是说。根据第三方市调机构Canalys最新发布的2022年中国云市场数据显示,阿里云在2022年占中国云市场份额的36%,排名第一,虽然业绩稳定增长,但增速持续放缓。在云业务这样的新兴市场,相比近两年快速增长的“其他云”,阿里云的关键词更像是“守业”。

而就在阿里云缓步前行时,ChatGPT从天而降。

在这波AI技术的爆发中,ChatGPT依云而生,Azure在ChatGPT训练、运行过程中表现出色。AI大模型能力,成了全球云厂商追捧的焦点,也成为了未来云业务最核心的竞争优势之一。

眼下,对于云厂商来说,不论前期发展如何,这波AI热潮,的确是一个换道超车的机会,模型能力、基础设施、开发者生态,都有可能决定云厂商的未来。

算力仍是重点

算力、算法、数据是AI大模型研发的三大要素,在AI大模型的竞逐中,主流云计算厂商显然在算力方面有着更强的实力,但一项创新技术的研发必然面临诸多复杂的问题,有时候优势亦是挑战。

“阿里云未来核心要做好两件事情:第一,让算力更普惠;第二,让AI更普及。”张勇提出,云计算是AI大规模普及的最佳方式,他说,“我们希望在阿里云上训练一个模型的成本,能够降低到现在的十分之一,甚至是百分之一。即使是中小企业,也能通过云平台获得AI大模型的能力和服务。”

据周靖人介绍,过去十年里,阿里云提供的算力成本下降了80%,存储成本下降了近9成。2023年,阿里云将推出一款更接近云计算终极形态的算力产品,这款被命名为通用Universal实例的产品进一步屏蔽了传统IT的硬件参数,让数据中心真正成为一台超级计算机,为中小企业和开发者提供普惠的算力。通用Universal实例的价格有大幅降低,对比上一代主售实例最高可下降40%。

降价、普惠的确是推广云服务、普及AI的有效路径,但普惠算力能满足大模型的研发需求吗?

AI大模型的研发对算力需求很高,而算力的强弱,取决于多个条件,包括硬件性能、硬件数量、系统和网络、软件优化、算法效率以及能源供应和散热等。

OpenAI的公开资料显示,GPT-3模型的研发采用的全部是英伟达A100显卡。而目前国内算力服务商在A100的囤货量上,并不乐观。

“AI的训练、运营都需要算力,无论传统的AI模型还是现在的预训练大模型,算力肯定是云计算厂商的核心优势。”仓剑告诉虎嗅,GPU芯片是影响AI大模型训练算力的重要条件。国内服务商缺芯问题目前还不是很明显,因为从运营、发展的角度来说,国内厂商都会在算力方面进行长期储备。

此外,对于云厂商来说,服务器对芯片技术的要求相比手机低一些,主要是体积和能耗方面的问题,部分国内自研芯片基本也能满足60%-70%的AI大模型研发需求。

然而,对于AI大模型研发来说,虽然没有高端GPU也能研发AI大模型,但训练效果和效率必然会大打折扣。首先,如果GPU现存不够的话,就需要对大模型进行架构优化、使用模型并行技术或降低批量大小来适应显存限制,但这可能会影响模型性能和训练稳定性。

阿里云研究员、阿里云官网负责人蒋林泉表示,“对于大模型研发来说,高端GPU芯片意味着数据的存储能力更强,对于用到大量数据的AI大模型训练更加友好。但如果没有足够先进的GPU,就需要扩大GPU集群,通过分布式训练等手段,来做大模型训练。”

然而,对于云厂商来说,要扩大GPU集群的分布式训练,就需要在构建GPU集群的过程中,保证高速通信和同步的能力,这对于云计算厂商来说同样存在一定的技术门槛。

阿里云并没有透露大模型使用的芯片情况。目前,国内大模型训练使用的芯片多是英伟达的A100。

虽然云服务商的存货能满足一时的需求,但随着AI大模型的迅速发展,算力缺口可能会呈几何级数上涨,而且随着AI技术、芯片技术的迭代更新,国内厂商的“库存”或许很快就不够用了。而单纯低端显卡并联,很难满足更高级的研发需求,且很快也会面临能耗、成本的问题,未来算力市场要如何算账,自研芯片要如何开发,都是摆在云厂商面前的难题。

生态是制胜的关键

算力之外,生态是大模型争夺的战场,各大厂商正在跑马圈地。

在阿里云峰会上,周靖人正式公布了阿里云的大型语言模型产品——通义千问。

虽然在几天前,通义千问就已经上线进行了邀测,不过测试的邀请码申请只开放了半天,多数申请用户似乎都没有收到邀请码。周靖人介绍说,目前通义千问的测试主要针对定向的企业用户。

本次展示的通义千问能力比目前的邀测版本更丰富,不仅包括了大规模语言模型 (LLM)的对话功能,多轮交互及复杂指令理解。还提到了与GPT-4的“识图”能力相似的多模态融合,以及支持外部增强API的功能。

阿里的AI大模型能力与阿里云成立之初一样,第一步都是服务“自己人”。在本届阿里云峰会上,张勇宣布,阿里巴巴所有产品未来将接入大模型,全面升级。他表示,要建设全新的AI开放生态,需要从阿里内部开始。

以钉钉为例,在周靖人的演示Demo中,钉钉接入通义千问之后可实现近10项新AI功能,用户可通过快捷键,随时随地唤起AI,开启全新工作方式。在钉钉文档中,通义千问可以创作诗歌小说、撰写邮件、生成营销策划方案等,全面辅助办公。在钉钉会议中,通义千问可以随时生成会议记录并自动总结会议纪要、生成待办事项。通义千问还可以帮助自动总结未读群聊信息中的要点。

图片

一个趋势是,AI能力将会成为SaaS软件的硬指标。“有人曾说国内SaaS卷不动可以出海试试。不过现在恐怕也没戏了,在国内你面对的是钉钉等产品,但是到了海外,可能就要面对带GPT-4的团队了。”某国内协同办公软件公司高管对虎嗅透露,短期来看SaaS、协同办公软件上的AI功能可能还要等一阵,毕竟成本摆在那儿,不过如果微软、谷歌不计成本地“卷起来了”,国内厂商的好日子可能就要到头了。

“AI大模型可能更像微信、支付宝这种超级APP,它是一个应用型平台。”仓剑认为。国内大厂不太可能共享自己的数据,因此也不可能共享一个通用AI大模型,更不会依托于其他厂商的大模型。

生态竞争将成为各厂商AI大模型的制胜关键之一。“对于以大模型为主业的企业来说,主要的客户或合作伙伴应该会是AI能力不强的行业企业。通过加入某一个大模型的生态,绑定某一个重要的服务商,实现AI大模型的赋能。”仓剑说。

抓住用户,让企业加入自己的生态,光有价格优惠还不够。对于企业和用户来说,无论何种数字化、智能化转型,目的无非是“降本、提质、增效”,一直以来,云技术都在努力从企业的业务中找到能够实现这三个目标的场景。然而在今天,任何一种生成式AI大模型,要找到这样的场景,首先要面对的就是“降低成本、提高稳定性”这两个重要问题,对ChatGPT、GPT-4如是,对通义千问亦如是。

网站编辑: 郭靖

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK