2

巨头抢滩“大模型” AI界掀起“新基座战争”

 2 years ago
source link: https://finance.sina.com.cn/tech/it/2022-09-10/doc-imqqsmrn8528914.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

巨头抢滩“大模型” AI界掀起“新基座战争”

  转自:中国经营网

9698-1051e944a81e309989869e16470b04c2.jpg

  本报记者 秦枭 北京报道

  近年来,大模型已经成为整个 AI (人工智能)产学界追逐的技术“宠儿”,“炼大模型”如火如荼,包括OpenAI、Google、微软、英伟达、百度、华为、阿里巴巴等企业巨头纷纷参与其中,各式各样参数不一、任务导向不同的“大模型”也陆续面市。一时间,“炼大模型”成为了当下AI产业发展的一个主旋律。

  方融科技高级工程师、科技部国家科技专家周迪在接受《中国经营报》记者采访时表示,Al大模型历经了前几年的探索期、突破期,部分技术已经逐渐成熟,现在在一定程度上达到推广期了。各大企业纷纷发布AI大模型,就是抢抓这个时间节点,在这方面先取得入场门票。大模型具有效果好、泛化性强、研发流程标准化程度高等特点,正在成为人工智能技术及应用的新基座。

  据中国信息通信研究院测算,2021年,算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,IDC(互联网数据中心)服务市场规模超过1500亿元,人工智能核心产业规模超过4000亿元。

  AI新基座

  在过去,绝大部分人工智能企业和研究机构遵循算法、算力和数据三位一体的研究范式,即以一定的算力和数据为基础,使用开源算法框架训练智能模型。而这也导致了当前大部分人工智能处于“手工作坊式”阶段,面对各类行业的下游应用,AI 逐渐展现出碎片化、多样化的特点,也出现了模型通用性不高的缺陷。这不仅是AI技术面临的挑战,也限制了AI的产业化进程。

  “从各类电商平台的智能推荐到日常生活中的刷脸支付,现在我们生活的方方面面都离不开AI。为了满足这些需求,我们需要为每种特定场景收集大量的数据,再从中设计出专用于特定任务的模型,”周迪对记者说道,“AI大模型希望做到的就是能够基于这个模型整合各类需求,从而适应多种差异化的业务场景,解决AI在赋能千行百业中面临的碎片化、多样化问题。”

  AI大模型提供了一种通用化的解决方案,通过“预训练大模型+下游任务微调”的方式,可以有效地从大量标记和未标记的数据中捕获知识,极大地扩展了模型的泛化能力。

  华为昇腾计算业务总裁张迪煊对记者表示,过去在一个单一的AI应用场景里面,其实是由很多模型组成的,通过多模型支撑一个场景来完成多个任务。而大模型是AI发展的趋势,也就是通过大模型能解决人工智能很多的问题,因为大模型具备很好的泛化性,可以通过大模型实现多个任务,原来场景需要多个小模型,现在大模型可以服务多个场景,这是生产效率的提升。现在国家相关部门也在牵头制定大模型的沙盘,避免科研机构、企业重复研发,通过各个领域的大模型与行业场景结合,可以更好地加速人工智能技术产业落地。

  阿里巴巴资深副总裁、达摩院副院长周靖人则认为:“大模型模仿了人类构建认知的过程,这是当下我们面临的重要机遇。通过融合AI在语言、语音、视觉等不同模态和领域的知识体系,我们期望多模态大模型能成为下一代人工智能算法的基石,让AI从只能使用‘单一感官’到‘五官全开’,且能调用储备丰富知识的大脑来理解世界和进行思考,最终实现接近人类水平的认知智能。”

  事实上,从2020年开始,全球各大公司和研究机构就已经开始了大模型的军备竞赛。2020年夏天,OpenAI推出GPT-3,在自然语言处理方面,GPT-3展示出惊人的能力,它能写文章,做翻译,还能生成代码,甚至可以学习一个人的语言模式,并遵循这个模式与人进行谈话。

  GPT-3的面市也使得全球范围内AI大模型迎来大爆发,参与企业越来越多,参数级别越来越大,成为新一轮AI竞赛的赛场。2021年谷歌发布了万亿级模型Switch Transformer,微软和英伟达也推出了包含5300亿个参数的自然语言生成模型。

  国内的企业也不甘落后,华为、百度、阿里巴巴、浪潮等企业都相继推出了自己的大模型。

  今年9月2日,阿里巴巴达摩院发布了最新“通义”大模型系列。周靖人介绍说,为了让大模型更加“融会贯通”,达摩院在国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。

  同日,华为也发布了基于昇腾AI的全球首个三模态大模型“紫东太初”。据悉,“紫东太初”是具备跨模态理解与跨模态生成能力的千亿参数创新模型。除此之外,其首次使“以图生音”和“以音生图”成为现实,是从限定领域的弱人工智能迈向通用人工智能路径的一次重要探索。

  据华为方面介绍,自2021年以来,国内产业界仅基于昇腾AI就先后推出了鹏程·盘古、鹏程·神农、紫东·太初、武汉·LuoJia、华为云盘古系列等有影响力的大模型,并陆续在互联网、智慧城市、生物医药、金融、农业等行业孵化出多个解决方案,加速推动AI在各行各业的应用落地。

  对此,周迪分析认为,Al大模型历经了前几年的探索和突破,一些技术已经逐渐成熟,现在在一定程度上达到推广期了。各大巨头纷纷发布AI大模型,就是抢抓这个时间节点,先取得入场门票。

  当然,AI大模型的发展也并非一蹴而就。大模型在实现全模态和全任务的通用性上仍存在许多技术难点,同时受算力资源限制,其训练与落地应用颇具挑战性。

广告

  清华大学计算机系教授唐杰认为,大模型训练面临着诸多的挑战,训练成本高昂,训练1750亿个参数的GPT-3,用到了上万块英伟达V100 GPU(图形处理器),总成本据悉高达1200万美元。人力投入巨大,谷歌PaLM 530B团队,前期准备29人,训练过程11人,整个作者列表68人。训练过程不稳定,易出现训练不收敛现象(训练过程中的损失值无明显下降趋势甚至上升),且调试困难。

  周迪则认为,Al大模型的发展主要面临体量、评价、应用三大瓶颈。一是体量庞大,研发部署困难。Al大模型的参数量和计算量要求给开发、调优、部署等工程化环节带来极大压力,需要加强AI大模型轻量化技术研发。二是评价单一,运用效能难以显现。当前AI大模型的评价以学术榜单为主,在行业场景下的应用效果难以客观有效评价,建议完善AI大模型评估指标体系。三是应用受限,产品形态仍在探索。建议鼓励AI大模型应用服务创新。比如有的企业采用分行业分层体系,逐步进行AI大模型的落地。


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK