1

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

 7 months ago
source link: https://www.qbitai.com/2024/02/118426.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

head.jpg克雷西 2024-02-02 16:41:37 来源:量子位

操作效率已达人类80%

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

会操纵手机的智能体,又迎来了全新升级!

新的Agent打破了APP的界限,能够跨应用完成任务,成为了真·超级手机助手。

比如根据指示,它可以自行搜索篮球比赛的结果,然后根据赛况在备忘录中撰写文稿。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

来自阿里的一篇最新论文,展示了全新手机操纵智能体框架Mobile-Agent,可以玩转10款应用,还能跨越APP完成用户交给的任务,而且即插即用无需训练。

依托多模态大模型,整个操纵过程完全基于视觉能力实现,不再需要给APP编写XML操作文档。

在Mobile-Agent还只有演示视频的时候,就已经让一众网友为之惊艳:

和树莓派结合到一起,将完爆Rabbit R1(一款大模型硬件)。

想象一下如果它支持语音操纵,并且学会了说话……

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

那么,Mobile-Agent操纵手机到底有多6呢?

支持跨应用任务

目前,Mobile-Agent已经学会了十个APP的操作,以及一些跨应用任务。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

比如搜索导航路线、帮忙在购物网站下单,它总能精准找到搜索框并完成目标。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

也可以“刷”视频,然后点赞评论,看上去就像熟练的老手。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

甚至是安装应用、修改系统设置,也难不倒它。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

而Mobile-Agent支持的跨应用操作,也是让“手机助手”更加接近人类……

只见它打开天气预报软件,然后迅速根据读取到的天气数据在备忘录中生成了报告。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

而在Mobile-Eval数据集上的测试结果也显示,Mobile-Agent操纵手机的效率已经达到了人类的80%。

研究人员在10款APP和跨应用任务上各测试了三种指令,收集了是否成功(SU)、操作评分(PS)、相对效率(RE)和完成率(CR)四项指标。

其中SU只有成功和不成功两种情况,RE是Agent所需操作步骤数和人类所需步骤数的比值,CR则是Agent相对于人类操作的完成比例,PS则以打分形式得出。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

结果,针对三种指令,Mobile-Agent的平均完成率都在90%以上,成功次数也不低于80%。

而且,与此前的智能体不同,Mobile-Agent不需要依赖应用说明文档,而是完全依靠视觉能力实现。

基于GPT-4V实现

具体来说,Mobile-Agent基于最强多模态大模型GPT-4V实现。

通过视觉感知模块,Mobile-Agent从设备的屏幕截图中准确定位视觉和文本元素文本和图标。

这一过程涉及到使用OCR工具和CLIP模型来确定图标的位置。

通过这些视觉信息,Mobile-Agent能够将语言模型生成的操作指令映射到具体的屏幕位置,从而执行点击等操作。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

在执行任务时,Mobile-Agent首先接收用户的指令,然后根据当前屏幕截图、操作历史和系统提示生成下一步操作。

这个过程是迭代进行的,直到任务完成。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

Mobile-Agent还具备自我规划能力,能够根据操作历史和系统提示自主规划新的任务。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

此外,它还引入了自我反思机制,在执行过程中,如果遇到错误或无效操作,它会根据屏幕截图和操作历史进行反思,尝试替代操作或修改当前操作的参数。

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

目前,研究人员已经在GitHub中开源了Mobile-Agent测试过程中生成的指令记录,程序代码也已经发布,未来还计划推出APP版本。

感兴趣的小伙伴可以试一试了~

GitHub主页:
https://github.com/X-PLUG/MobilAgent
论文地址:
https://arxiv.org/abs/2401.16158

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK