2

大模型的 2024:「天上」的技术,和「地上」的创业者

 7 months ago
source link: https://www.geekpark.net/news/331303
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

大模型的 2024:「天上」的技术,和「地上」的创业者

2024/02/07
04c4f42c77b84596d25006cd7daac540.jpeg

做不一定能成,但不做肯定已经失败。

2023 年,OpenAI 引领了科技圈久违的兴奋,创业者感到有奔头的同时,却也随着 AI 模型的一再进化,感受到了压力。

在春节前夕,算力、模型、应用等领域的大模型创业者,齐聚在一场创业者社群的活动上,切磋各自在不断进化的大模型中找到的空间。面对呼之欲出的 GPT-5 和 Llama3,他们也有新的思考。

站在模型层面,差异化很难,方向几乎是明确的——增强推理能力和多模态。也有技术路线的分野,比如阿里云通义实验室智能对话负责人李永彬透露,目前在思考是否能把搜索增强这样的外挂能力,做到模型里,进一步提升模型的可用性

但站在应用层,多的是非共识和机会。比如,跑得最快的一批创业者,已经实现了一定程度的商业闭环,得出的结论甚至有些意外:大模型含量」不宜过高

这群下场做大模型的实干家也谈到了行业内最真实的情况。智谱 AI COO 张帆道出,今天的榜单其实不反映真实问题,GPT-4 可能连榜单前 10 名都进不了。他认为,这种情况下,2024 年一定会发生从模型为王到价值为王的变化。

百川智能联合创始人洪涛则更关心成本,他表示,一年下来苦哈哈做各种私有化项目,到底挣多少钱,其实内心没把握。在这一点上,大家也探讨了云计算厂商能否在整个行业没有商业模式之前,降低算力成本的路径,让该花的钱少一点。

近日,阿里云创业者社群在北京举办创业者之夜活动|阿里云

在「创业者之夜」,各位大模型的先行者分享了各自对行业的「预言」;AI 应用的创业者们,也分享了对于大模型的「焦虑」。

01 2024,大模型往哪走?

2023 年,阿里云李永彬游走于大模型业务一线。一整年忙活下来,他发现:最初,大模型让「AI 解决问题」这件事的效果从 20 分提高到 60 分,就能够惊艳所有人,但是对于很多问题,60 分和 0 分差不多。因为在一些应用场景,没办法拿 60 分的产品上线,效果到不了 90 分,客户可能也不会买单。

这也是 2023 年大模型创业者们共同的体感。从兴奋回归到理性,背后是共同的困惑——大模型还不够通用,它会不会像上一波 AI 一样,尽管展现出惊人的能力,但落到场景时仍旧需要逐个项目定制化?

大家自然就产生了 2024 年对大模型的第一个期待——通用能力进一步提升,甚至期待模型在一些复杂场景能直接做到 90 分

这种可能性不是无迹可寻。IDEA 研究院讲席科学家张家兴认为,从目前 OpenAI、谷歌等大厂对下一代大模型的判断,大模型能解决复杂问题会成为接下来进化的方向。

54698c590d712f00ca9d139b6611b117.png

AlphaGeometry: An Olympiad-level AI system for geometry|图片来源:DeepMind 官网

就在两周前,谷歌 DeepMind 推出的 AlphaGeometry(阿尔法几何)AI 系统,已经能在 30 道国际奥数题中做对 25 道,接近人类水平(人类金牌得主平均做对 25.9 道)。像这样能解决奥数级别的几何问题,被视为迈向更先进、更通用 AI 的重要里程碑。在 IDEA 研究院张家兴看来,「奥数就是复杂问题,问题的描述很复杂,求解过程、证明过程也很复杂」,能解决复杂问题是模型变得更通用的表现之一。

阿里云创业孵化事业部总经理李中雨认为,从 GPT-5 目前释放的信息看,模型的泛化能力在提升,解决复杂任务的能力也在提升,甚至接下来 GPT-5 可以解决 15%-20% 人类的任务。

在提升模型的通用性上,也有新思路。

一位来自模型厂商的与会者分享,最近绝大多数企业落地大模型时都会用到 RAG(搜索增强),从而将大模型和私有数据结合起来,提升模型可用性。但作为模型侧的开发者,也在探索算法创新,通过算法创新提高模型的学习能力,把像 RAG 这样的外挂知识库囊括进去,从而减少对模型数据训练的依赖。换言之,通过算法创新,以期让模型像人类学习一样,看一本书就可以理解知识,而不需要看所有书来理解一个问题。

在这一点上,GPT-5 提供了很好的示范。智谱 AI 张帆认为,更强大的推理能力让处理复杂任务成为可能,同时也带来了非常强的泛化能力。模型会在各个行业场景都能有很好的 Zero-Shot、One-Shot 能力(给模型一个例子甚至不给例子,它就可以涌现出对应的能力),从而减少对训练数据的依赖。通过小数据集的训练,就可以把模型引入到更多更垂直的领域。如此一来,可以降低客户使用模型的门槛,增加其可用性。

除了通用性,多模态能力也被期待在 2024 年能有更大突破。

去年底,从 GPT-4 到谷歌 Gemini,已经充分展现了大模型的演进,拓展以大语言模型为核心的更大体系的 AI,必然会涉及多模态能力。

张家兴预判,就像 2022 年底 ChatGPT 的出现,导致 2023 年所有人都在做大语言模型一样,2024 年整个业界可能会聚焦多模态。这并不只是因为多模态能带来更强的能力,更因为多模态的应用场景多,在端侧比如车和机器人的场景,多模态非常重要

在多模态的技术实现上,也有一些技术融合的新视角。

在多模态领域做探索,中科深智创始人成维忠注意到前段时间图灵奖得主 Lecun 的一个采访,他并不认同现在大家做多模态的技术路线——把图片视频还原为像素,Lecun 认为未来的多模态训练是应该以表征事件为主。

在这一话题的讨论上,与会者一方面认为,ChatGPT 也不是规划出来的,技术路线可能是干出来的,能用今天的技术落地往前走、不断改进是前提。另一方面,尽管路线之争的存在,但也不是不能调和的,有很多中间的路线可以走,是连续的。比如,张家兴分享了 IDEA 内部的实践,称称目标识别等计算机视觉特征是可以作为多模态大模型的输⼊,实践下来的效果⾮常好。

e5e1462ac9e8792b46e30651318912b2.png

从左到右分别是阿里云创业孵化事业部总经理李中雨;智谱 AICOO 张帆;百川智能联合创始人、总裁洪涛;元璟资本管理合伙人刘毅然;IDEA 研究院认知计算与自然语言讲席科学家张家兴、通义实验室对话智能负责人李永彬 | 阿里云

02 2024,大模型如何落地?

如前所述,对于大模型接下来的趋势预判,推理能力和多模态能力的提升成为清晰、明确的目标。但谈到 AI 应用,更多是非共识的思考,创业者一致认为需要在非共识中寻找机会

就拿大模型落地应用要考虑的第一件事——模型选型来说,目前也还没有达成共识。智谱 AI 张帆笑称,以现在模型评测卷出天际的背景下,「OpenAI 的 GPT-4 都排不到模型评测榜单的前两页」。

的确,几个月以来,不少模型创业者都向极客公园表达了类似的观察:模型评测榜单不反映真实情况。在「模型为王」的愿景下,的确会出现提前让模型「看题」、「背题」来获得高分的情况。但更重要的是,当涉及到千行百业的不同场景,很难用一套标准来评价模型的可用性。

实践过后,大家更认同在一个个真实的具体场景里不断测试评估。比如,猎聘在+大模型的探索上,最大的研发成本就花在测试不同的模型上。猎聘 CEO 戴科彬表示,对于什么场景用什么模型、多大尺寸的模型最高效,没有标准答案,就连评价标准也要根据情况调整。

除了模型选型,模型落地也开始出现一些可操作的判断标准。无论是在原有应用里+大模型,还是一些 AI Native 应用的探索,都出现了能形成商业闭环的可能性。

这里首先要考虑大模型技术分布的独特性。元璟资本管理合伙人刘毅然认为,AI 应用存在巨大的不确定和非共识机会,这与这一波 AI 技术的特点有关。

移动互联网时代,应用的底层基础设施是一样的,都是基于苹果 iOS 和 LBS 定位来做产品。相比之下,大模型应用则是一个个垂直优化的过程,底层模型哪部分用开源版、哪部分微调、调整哪些问题,再视情况优化功能和应用。创业者需要充分懂技术,再做产品的封装,这个过程存在很大优化空间和机会。

这就提出了探索 AI 应用的第一条原则——TPF(技术产品匹配),百川智能创始人王小川在极客公园创新大会 2024 大会上曾提到过这个名词,指的是在现有大模型技术不完美时,先明确「这样一个技术适合什么样的产品」,而不是产品经理洞察市场有什么需求,回来就开始做。

因为从大模型到 AI 应用,「今天最大的挑战不是找到『什么不行』,这件事不难,人人都能够做到。难的是能找到它『什么行』,找到模型能力和业务的最大公约数,变成正向循环。」智谱 AI 张帆认为,这会成为 2024 年大模型落地的重点。

尽管这样的实践可能不是投资人寻找的 AI Native 应用,但是务实地看,通过在可用场景里,基于模型和工程化手段把大模型应用产品化,数据和客户反馈的飞轮会推着 AI 应用向前迭代。百川智能联合创始人洪涛提到了一个有趣的观察,做 AI 应用的创业者甚至觉得以当前大模型技术成熟度,AI 应用「含大模型量」不宜过高。

在游戏领域,昆仑万维集团董事长兼 CEO 方汉有类似的观察。通过纯 AI 大模型直接生成 3D 游戏内容,会造成面数特别多、规格不匹配等问题。这时如果换一个思路,把传统的一些简单动画工具,融合进 AI 大模型的工作流之后,产品的可用性就大大提高。

在他看来,什么好用就用什么,拼出对用户最有价值的工作流,这是作为 AI 应用开发商的价值所在。

看得出,在原有应用里+大模型、探索更好的工作流,是把大模型智力变成生产力最直接的方式。智谱 AI 张帆认为,这也是 2024 年产业关注的重点。

与此同时,一些令人惊艳的 AI Native 应用也开始出现。

就像移动互联网技术下,出现随时随地刷短视频的用户需求一样,大模型技术下也开始出现一些独有的场景。比如一位 AI 应用投资人现场分享了一款还在定向邀测的海外应用 Can of Soup,一款想象力社交软件。用户利用 AI 生成虚拟图像,发布在网站上,互相评论,还可以邀请朋友进行「想象力」共创、点评,这款产品可以类比为「想象力版 Instagram」

「这款应用在海外 DAU 增长非常快,不知道最后能不能成,但是非常有意义的探索,代表不仅现实的生活可以分享、可以社交,你的想象力也可以被社交,这就是非常典型的 AI 原生的应用,发现了新的行为模式」,他补充说。

除了像 Can of Soup 这样捕捉新技术下的人类新需求,新技术也给熟悉的场景带来了更好的解决方案,为用户带来更易用、好用的体验。

就拿现在最火热的智能体来说,智谱 AI 张帆认为,很多 GPTs 能做的事情非常浅,很难用作生产工具。这些 GPTs 背后的流程大体是按照人的理解逻辑来执行,先做分类、再做模型、再做任务,但是这种智能体运行的方式是受限的,他认为,「严格来讲,这种外挂工程的方式不算是 agent,只是大号的模型应用」。

相比之下,他发现字节跳动在海外推出的 Coze 玩法不一样,同样是 GPTs 类应用,Coze 的模式是利用背后大模型的递归和迭代的能力和表达力,这是更加原生的智能体,效果也更好。

张帆称,这是他看到比较兴奋的方向,能够用更简单的方式、更通用的方式,不需要微调,仅仅用基础的表述就能够解决真正的复杂问题,把从模型到应用之间的 100 公里降到 100 米。但也有前提,像 Coze 这样的原生模式,高度依赖背后的模型能力,模型强大到足够通用,才可以实现。

9e6c606548b01c1fc3f2ece1e650c901.jpeg

智谱 AI COO 张帆在活动上做分享|阿里云

除了软件类 AI 应用,结合端侧场景的应用也值得期待,尤其机器人领域。说起 2023 年最眼前一亮的应用,张家兴认为是谷歌的 RT-2(Robotics Transformer 2,一款机器人大模型),看到了⽤⾃然语⾔定义任意机器人任务的曙光。他认为,⼤模型在机器⼈领域正在期待 ChatGPT 时刻。

元璟资本刘毅然举了一个例子,过去机器人领域有一些常规,比如用数学规律来描述复杂动态体的运动,现在,大模型对于像这样的数学描述过程有放大作用,但距离大模型真正进入机器人或者手机、车、AI Pin 等硬件,可能还需要些时间。

「天上的大模型能否落在地上的设备上面,是值得期待的」他说道。尽管通用的物理世界大模型的价值最大,是科学家梦寐以求的,但在前面加合适的定语,是创业者今天就可以做、也可以有收获的。难点在于,前面怎么加定语,能符合今天的技术阶段,也能把商业化和产品结合在一起,不停向前进。

03 2024,大模型「基建」的意义

有了对 AI 应用百花齐放的期待和判断,创业者也对整个大模型的技术体系寄予新期待,尤其是数据、算力和开源算法。

数据被视为模型训练、微调等动作产生效果最重要的因素之一。在获取高质量数据上,方汉提出了不同的思考。在他看来,很多大模型有更快的方法获取数据,比如通过用 GPT-4 做「教练」来获得,但是在数据获取方面,团队应该有「长期主义」精神,不然「很难走远」。

59ff26a335e2d3c0ddc4b6be632470a9.jpeg

昆仑万维董事长、CEO 方汉在交流环节分享昆仑万维+大模型的实践|图片来源:阿里云

在对比了全球市场后,昆仑万维方汉认为,垂类数据是中国公司上场和发力的方向。有了垂类高质量数据,才有机会在垂直场景里面做到 SOTA(指前沿、第一梯队的模型),率先获得垂直场景的红利。

在算力层,成本成为主要的关注点

百川智能洪涛坦言,大模型商业模式的探索有相对长期的试错过程,云计算层面继续突破、摊薄创新成本,是眼下比较关注的方向。

在这一点上,阿里云公共云总裁刘伟光认为云和 AI 的结合会逐渐解决这个问题。

云计算对传统 IT 的意义,和融合AI的意义完全不同。AI 和云是鱼和水,密不可分,二者的结合是 AI 应用的催化剂。同时,云计算能力的不断演进,包括 GPU 算力、配套的计算存储、网络能力的演进,会对 AI 产生非常大的支撑。

在谈AI原生应用之前,其实有一点被忽略了——AI 是云的原生应用。二者的结合还有很大优化空间」他说道。随着大模型包括 AIGC(应用)更加细分,对算力的需求也会逐渐细分化,而不是简单粗暴地购买算力,这也是阿里云不断探索的事情。

在这一点上,云、端结合的方式也被寄予厚望,昆仑万维方汉认为,降低模型推理成本,要结合端侧推理,手机侧可以做小参数量模型的推理,和云端大参数量模型推理结合起来。

算法层面,Meta 开源的 LLaMA 和 Llama2 为产业模型发展提速,带来了繁荣的开发者生态。不久前,Mistral 创始人也袒露借鉴了 Llama2 的开源模型,但开发者普遍称,Mistral 的效果实际用下来要比 Llama2 更好。

国内模型厂商也越来越多地选择开源模型,但也有创业者表示,不确定国内尤其是大厂开源模型背后的考量,会不会只是一时的。比如,猎聘戴科彬就认为,阿里云开源的 72B 大模型效果非常好,但也好奇其背后的思考。

在创业者之夜上,阿里云市场总裁刘湘雯直面这一提问。她表示,阿里云会持续开源,这并非仅仅为了公益,而是基于对商业的判断。

e29a67cb86b12955e770b5d2aaf4709d.jpeg

阿里云创业者之夜活动现场|阿里云

在这场创业者活动中,极客公园看到了共识,也看到了更多共识的观点在嘉宾之中激烈碰撞。而这恰恰代表了由大模型引发的新一波 AI 浪潮中所蕴含的机遇。你可以想象,在 20 年前移动互联网刚刚兴起的时候,在类似活动,同样充满了相同的争论和见解。

不同的是,变革的「基建」从运营商,变成了现在以阿里云为代表的云计算厂商。在大模型时代,阿里云不仅要自己下场「摸清」大模型上下游的真实情况,更需要在这样的创业者之夜活动中,和大模型行业的「玩家」共同找到行业发展的方向,根据后者不断变化的需求,增加阿里云「AI 基建」的各种能力,来和创业者们一起成长、成功。

大模型时代,「计算,为了无法计算的价值」有新的内涵,在阿里云举办的创业者之夜活动上,这群先行者率先开始探索最开放的技术体系里,新的变化。

写在最后:

创业者之夜活动由阿里云创业者社群举办。社群聚集中国最前沿的技术创新者,聚焦云与 AI 技术方向、以及 AI 在产业中的落地应用等核心主题,发起各类技术及产业闭门活动与研讨,与社群成员形成长期共创体系,与技术创新者们共同成长。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK