4

Agent狂飙300天

 6 months ago
source link: https://www.36kr.com/p/2658065259282691
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Agent狂飙300天

数智前线·2024-02-21 11:09
离颠覆软件行业还有多远
interlace,1

大模型能力快速发展,Agent形态还在快速演进,整个赛道仍处于早期。从AI的角色扮演走到模型能力专家化,还有多远?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

大模型的世界不缺热点。

近日,OpenAI发布的Sora大模型引爆科技圈,大模型能力又一次迎来炸裂更新。而在底层大模型技术快速迭代之外,过去大半年里行业内的最热门话题当属AI Agent。

这也是个分歧和共识并存的领域,引发了从巨头到创业者和投资圈的共同关注。

分歧在于,到底什么才算Agent,人们的认知不一。比如OpenAI官方推出的GPTS到底算不算Agent,到底是自动化还是辅助式协作,人们看法有差别。另外,中文里它还有“代理”、“智能体”等不同提法。

而AI巨头、平台企业和各类创业公司用行动表达了对这一领域的看好,积极布局Agent开发平台、框架或应用。OpenAI无疑是风向标。OpenAI CEO山姆·奥特曼称,未来各行各业,每个人都可以拥有AI Agent。去年11月OpenAI发布自定义GPT,到今年1月GPT Store正式上线时,据称该平台已经有了超300万个GPTs。比尔盖茨还发长文指出,AI Agent将彻底改变人们使用计算机的方式。

在国内,百度、阿里、字节、智谱等一众企业都推出了各类Agent平台,也有不少企业从应用层发力,如360、澜码科技、实在智能等从安全、财务、人事等场景探索Agent落地。

Agent为什么会成为香饽饽?国内企业目前是如何切入Agent赛道?创业公司和平台企业的优劣势是什么?Agent距离真正改变生产生活,还有多远?

大佬都爱Agent 

2024年被业界视作Agent落地元年。

上个月的2024CES上,被问及2024年AI领域可能有哪些重大突破时,吴恩达回答,大型语言模型到大型视觉模型的转变,自动化智能体(autonomous agents )的崛起和边缘智能。

interlace,1

新年伊始,文生视频大模型Sora的爆火,视觉模型技术已迎来突破,这也让业界颇为期待Agent的应用和落地。

实际上过去大半年,Agent在大模型里的火爆有目共睹。去年下半年时,硅谷科技记者Matt Schlicht统计称,至少有100个项目在将Agent商业化。据一家投资机构不完全统计,他们观察到去年下半年有二十多个Agent项目完成融资。

也有人称,去年年中以后,大模型赛道上创业者和投资人的关注点一下子从模型本身转移到了Agent上。

而如果追溯当下这波Agent 热潮,不少人把去年三月底开始刷屏的AutoGPT视作开始。作为一个开源项目,AutoGPT创造了Github上的星标上涨记录。它由大语言模型驱动。用户用自然语言设定目标,AutoGPT能自动将目标分解成子任务,连接互联网或使用其他工具来实现目标。

与ChatGPT不同,用户使用AutoGPT时不需要频繁提问,只需要给AutoGPT设定一个一个AI名称、描述和目标,它就能自己完成项目。这一项目很快就在GitHub上成为顶流。

而Agent爆火也离不开AI巨头OpenAI 的添砖加瓦。

2023年年中,当时还是OpenAI联合创始人的Andrew  Karpathy在一个开发者活动的发言被广为传播。“如果一篇论文提出了某种不同的训练方法,OpenAI内部会嗤之以鼻,认为都是我们玩剩下的。但是当新的AI Agent论文出来时,我们会十分认真且兴奋地讨论”。

interlace,1

Andrew  Karpathy还指出,普通人、创业者和极客在构建AI Agents方面相比OpenAI这样的公司更有优势。

也是这一时间段,OpenAI 应用研发主管Lilian weng 在一篇博文里定义了基于LLM构建AI Agents的框架。她指出,Agent=LLM(大型语言模型)+记忆(Memory)+规划技能(Planning)+工具使用(Tool Use),其中,LLM是智能体的大脑,而记忆、规划和工具使用能力是关键组件。它也成为大模型时代Agent的经典定义。

到2023年11月,OpenAI DevDay上,OpenAI推出其官方Agent开发框架Assistant API,并宣布将推出GPT Store,Agent热潮进一步发酵。

同一时间段,比尔盖茨写了一篇长文看多Agent领域。他预言五年内,Agent将改变人们使用电脑的方式,颠覆软件产业。除了OpenAI和各路大佬动向不断,硅谷还涌现了大量的AI Agent创业项目或产品,比如BabyAGI、MetaGPT、GPT Researcher等。据云基础设施服务商E2B的不完全统计和分类,在编程、个人助手、生产力、财务等多个细分场景都有大量的开源和闭源项目。

interlace,1

巨头微软也推出了多类Agent 架构,以代码为中心的TaskWeaver,还有多Agent 框架 AutoGen。英伟达的研究人员则利用ChatGPT技术制作了一个智能体Voyager,它会自己玩《我的世界》,能完成游泳、采集植物、猎猪、开采金矿、建造房屋等操作。

除了单智能体类应用,还有多智能体类项目。最知名的多智能体项目当属斯坦福大学和谷歌合作的斯坦福小镇(Smallville )开源实验。在这个实验中,研究人员创建了一个由25名智能体组成的虚拟小镇,并让其中一个策划一个情人节派对。这些智能体能彼此交流,按照设定做出相应的决策。

interlace,1

什么是Agent,为什么成为香饽饽?

从大佬到创业公司纷纷看好Agent,首先在于它延展了大模型的能力。

interlace,1

一位人工智能领域资深技术观察者介绍,当下,Agent的记忆、规划以及使用工具的能力都是在弥补大模型现在还比较弱的地方。Agent本质是以大模型为核心,扩展大模型的潜力,目标是成为强大的通用问题解决方案。

网易数帆CodeWave产品技术负责人就告诉数智前线,其实不用把Agent想得太复杂,它表现出来就像自动化操作,底层还是基于大模型的能力。OpenAI官方定义的它的几大能力里,比如使用工具,调用搜索引擎,外接数据或第三方API,实际上增强了大模型的能力。

致远互联高级副总裁蒋蜀革则判断,在企业级场景里应用中,Agent跟大模型的落地高度关联的。蒋蜀革认为,目前业界已经很务实,非常理性看待大模型的能力,光靠大模型落不了地。比如企业的数据、规则、业务上下文都非常重要,当下大语言模型提供不了外部的实时信息,也无法访问内部数据,这很难支撑企业内场景的应用。“而Agent 能够感知环境,感知上下文,自己做业务规划,结合企业的数据、知识、企业的业务系统去走。这个落地的框架是越来越清晰的。”

也有人把大模型比喻成大脑,而Agent的能力则让它多了四肢。实在智能的算法负责人欧阳认为,大模型和Agent的最大区别就在于Agent对于工具的使用,Agent是大模型进一步落地的必然选择,比如在智能客服、文案的生成类任务时,大语言模型本质上还是在意图理解和对话生成的能力,但在真正的企业应用场景里,对话类任务只占日常工作中比较少的一部分。

许多工种需要操作各类业务系统,完成指定业务流程。比如财务要操作财务类软件,完成报税报销和财务稽核工作;而法务要审核很多合同,起草法务文件,这些都要跟大量的业务系统打交道。“在这些场景里,只有大模型,相当于有一个非常智能的大脑,但是它没有没有手脚去真正操作,因此大模型和各类自动化工具,例如RPA(机器人流程自动化)等,就存在一个很好的结合点”,欧阳说。

另外,业界也看中Agent能够与环境互动的能力,它能理解目标,拆解任务,并且调用工具执行任务。原来一些步骤和流程无法按照一个复杂的任务线来串起来,Agent以大语言模型作为一切任务的中心,就可以处理复杂的任务了。

澜码科技创始人兼CEO周健认为,传统的软件需要人去适应机器,Agent最核心的特点是它能对环境有感知,并且跟环境互动。以RPA为例,作为传统的自动化工具,RPA能实现某些步骤的自动化作业,但这些能被自动化的步骤非常有限。只要该步骤的业务上下文和业务理解的规则上稍微复杂一点,RPA就很难完成。比如金融行业信贷审核流程可能涉及到上百个步骤,RPA能够去自动化完成的只有几个。

而大模型实际上提供了极其便利的语言理解能力及推理能力。因为有了语言理解能力,其实人与机器的互动模式就变得更灵活,机器可以适应人。“能够被自动化的业务步骤数量大大增加,能形成规模化的生产力。”周健说。

正如比尔盖茨认为,Agent未来会变成一个非常普遍的存在,改变人们使用电脑的方式,颠覆软件行业,也有不少行业人士认为,Agent正在引发人和机器互动的范式变迁。

一位大厂技术高管认为,新范式变迁下,总会带来平台级的机会和新的入口,这其实会给很多创业公司带来新的机会。这也是从行业巨头到创业者及投资市场普遍比较兴奋的原因。

国内企业动作频频

范式变迁的潜在机遇也吸引了国内的一大批企业,大厂、AI公司和新兴创业团队都积极布局这一赛道。

interlace,1

根据数据前线不完全统计,目前不同角色进入市场的布局重点不一。

一类是平台模式。手持自研大模型的厂商如阿里和百度都推出了智能体开发平台。阿里达摩院的魔搭社区推出ModelScopeGPT,百度的灵境矩阵平台全新升级为文心大模型智能体平台。对这两家既有自研大模型,同时有云计算业务的企业而言,培育和完善Agent的开发者生态符合其定位和需求。

也有一众企业对标OpenAI的GPT Store,面向更广泛人群,推出可快速生成Agent的智能体商店,比如昆仑万维、钉钉、智谱AI、字节等。面向泛C端市场推出智能体商店,看中的自然是Agent的入口属性和对应用生态的变革。钉钉总裁叶军在钉钉7.5版本发布会上就断言,AI Agent已经成为当下最佳AI应用入口,钉钉的目标是成为低门槛、高频和开放的AI助理平台,他还表示,未来三年,要有1000万个AI助理在钉钉上产生。

头部云厂商里,手握自研大模型的企业还有华为和腾讯,这两家企业在Agent领域也有动作。它们的技术研究团队分别都联合大学发表了专门的论文,发布了各自的Agent框架。

去年12月,腾讯和德州大学达拉斯分校的研究团队合作开发的名为AppAgent的项目,进入公众视野。该项目希望可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务,有人称它相当于手机上的智能“按键精灵”。而华为方面,华为诺亚方舟实验室与伦敦大学学院(UCL)、牛津大学的团队在去年12月底发表论文,提出了一种通用框架模型盘古Agent,用于将结构化推理整合到AI Agents中并进行学习。

除了智能体商店和Agent开发框架上的布局,还有大量企业从企业级Agent应用和平台层发力。比如澜码科技、实在智能等厂商都希望帮助企业构建企业内的一站式Agent设计、使用和管理平台,同时这些企业也在一些先行场景里打造标杆Agent应用,形成示范效应。

“如果把大模型视作基础设施,目前它已经在横向整合,那么上面的PaaS层其实也会横向整合,企业内会出现一个Agent中间件的机会。”澜码科技的CEO周健认为。但由于行业仍然处于早期,这类平台当下的重点则在积极探索企业内应用场景,构建标杆应用,进而从应用层向中间件平台建设发力。

周健观察到,目前企业内Agent应用最容易切入和落地的,是在财务这类数字化程度比较高、有相应的国家标准化规范的场景,因为有比较明确的企业SOP流程规范或数据沉淀。目前澜码科技的企业级AI Agent和轻应用已经在一些企业先行落地应用。同时,澜码科技也在人事等不同场景寻找与Agent结合的方式。

也有一些企业和平台在成熟的业务板块里引进了基于大模型的Agent能力。比如网易数帆CodeWave就尝试将低代码平台和Agent的能力结合,来降低低代码工程师操作平台的难度。

该平台产品技术负责人介绍,他们的应用场景是利用Agent来完成自然语言输出逻辑的编写。这是低代码里应用非常高频,但是非常难操作的一个功能。一般简单的业务逻辑,可能需要半个小时左右编写,复杂点的需要耗时半天到一天。目前接入Agent的能力,能自动分析用户的诉求,并拆解成可执行的任务,完成相关的逻辑编写。用户只需确认即可,几分钟就能完成此前半天到一天的工作。

无论是平台还是创业团队,都已经开始啃起了Agent这块蛋糕。新浪潮下,一位AI行业资深人士认为,Agent能力的落地,尤其在应用层,大平台和创业团队可能站在的是同一个起跑线,考验不同企业对应用层能力的挖掘和场景及需求的洞察。

Agent落地缺什么?

“大模型能力还在快速发展,Agent目前是个在发展变化的概念,它的形态还在演进中。”一位ToB领域的资深人士告诉数智前线,整个赛道正处于早期。

有观点称,Agent本质是模型能力专家化,但当下它更像是AI的角色扮演,一个同质化基础大模型,通过一些Prompt加人设,Agent的行动要满足人设。Zilliz 合伙人兼产品总监郭人通此前在一个论坛上表示,后期Agent要成为行业专家,才具备核心价值。

那么,Agent如何从高中生升级到大学生及行业专家?业界普遍关注到领域模型或“世界模型”的重要性。

周健告诉数智前线,当下基于大语言模型的能力,Agent有与人互动、验证虚拟环境的可能性,但是Agent需要不同的领域模型或世界模型,才能完成对各类环境的建模和互动反馈。而这也是各类企业当下的的能力差异点,比如澜码科技就擅长业务流程的世界模型构建。

不管是专家知识还是领域模型建设,那些对企业内知识更为重视,有更好沉淀的组织相对走在前面。近年来,许多企业重视用数据驱动决策,未来企业内建设的各类指标库与Agent结合,有望提升Agent的智能程度。一些指标平台已经看到了空间,数智前线获悉比如大数据分析和指标平台kyligence就计划朝向Agent方向打造产品。

周健认为,除了那些已有的体系化积累,基于经验和小数据得来的知识,也是未来Agent落地必不可少的。例如如何评估财务的健康度,什么叫做应收账款比例过高,“高”在不同行业、不同企业定义和意义并不一样。过去各类组织较少花精力去数字化这部分知识,未来需要补齐。

网易CodeWave低代码平台技术负责人称之为AI友好。他举例目前CodeWave智能开发平台之所以快速能接入Agent能力,在自然语言逻辑编写效果不错,也是因为它们在代码语言上做了一些准备和限定。

代码生成技术此前遇到的很大问题在于,只能生成固定领域或者固定技术栈的代码,但其实Web开发实践中,前端后端技术栈非常多。

此前CodeWave智能开发平台构建了一种NASL语言,这种语言比较收敛,抹平了前后端的一些类型的差异,能够真正实现全栈可视化编写。去年大模型到来后,他们发现收敛的编程语言更利于AI的学习和训练以及生成。“这是意外之喜。统一编程语言的设计,对AI是非常友好的”。

大模型能力本身也对Agent的能力和形态产生影响。智谱CEO张鹏此前受访时就说,Agent的本源仍然是大模型的基础能力,大脑的智力水平足够高,才能谈理解、推理、规划和执行这些事。

一位Agent应用开发者告诉数智前线,一些基于GPT-4上能使用的能力,迁移到一些国内大模型上就不可用了,“这非常常见,其实也对Agent的实际落地造成了非常大的困扰。”这需要国内基础大模型厂商的共同努力。

而除了Agent的各种能力本身,实在智能Agent智能体项目核心算法负责人认为,安全机制的构建也必不可缺,“不仅需要官方定义的那几个能力,还需要安全性和多Agent之间的协同,才能在B端更好落地。目前这也是我们花了很大精力做的工作。”

2024年被周健视作Agent的元年。他认为,经过一年发展,大模型公司也在思考商业化问题,而大模型要落地,需要AI Agent公司来完成,因此,2024应用为王,行业要用各种各样的新应用,证明生产力确实是能够被大模型封装,走向智能。“某种程度上,整个行业需要一个爆款”。

本文来自微信公众号“数智前线”(ID:szqx1991),作者:徐鑫,36氪经授权发布。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK