4

一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了

 1 year ago
source link: https://www.qbitai.com/2023/03/43331.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了

head.jpg萧箫 2023-03-31 19:46:31 来源:量子位

一种AGI新思路

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

通往AGI的路究竟怎么走,微软有了新想法——

基于ChatGPT这类大模型的强大理解能力,将输入的任何信号拆解成一个个可完成的任务,交给其他的AI和程序完成。

简单来说,就像是建了一座司令塔,每个大模型都能成为其中的“大脑”指挥官,其他专门解决某类任务的模型,则听它调令——

这样一来,不限定某个AI,所有大模型都能使用这套方法。

能解决什么问题?

人类只需要提需求,AI从自动做PPT、Word和Excel三件套(Office自动化),到驱动机器人完成各种智能任务,都能搞定。

这个最新的研究名叫TaskMatrix,据微软表示,它能直接驱动数百万个用于完成任务的AI和API。

f9e054ac622a425e818b97c9f99dc51f~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=RxObUHKFs4IVmNAp3DlmWfT29WM%3D

论文还引用了OpenAI CEO奥特曼那句AI版摩尔定律:

宇宙中的智能数量每18个月翻一番。

一起来看看TaskMatrix是怎样工作的。

AI“司令塔”如何工作?

这是TaskMatrix的整体工作流程:

64f92d778661465cb1e95fdfd5f2f5c2~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=D42NLzzRx9fv1vuuVvknMqARo8w%3D

从架构图来看,TaskMatrix可以被分为四部分:

  • 多模态对话基础模型(MCFM):与用户对话并了解需求,从而生成API可执行代码以完成特定任务
  • API平台:提供统一API格式,存储数百万个不同功能的API,允许扩展和删除API
  • API选择器:负责根据MCFM生成的内容推荐API
  • API执行器:调用API并执行生成代码,给出结果

简单来说,MCFM负责生成解决方案,API选择器从API平台中选取API,随后API执行器基于MCFM生成的代码调用API,并解决任务。

其中,为了统一API管理,API平台又给API统一了文档格式,包含以下五个部分:

API名称(提供API摘要,避免与其他API混淆),参数列表(包含输入参数和返回值等),API描述(功能描述),组合指令(如何组合多个API完成复杂用户指令)

例如这是“打开本地文件”API的文档格式:

6c031eece10b4a80a9711666ad0f6b6b~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=xWLXprbwZ6ZCDbruPPRJf8oArRo%3D

据微软介绍,搭建TaskMatrix的原因,从学术角度来说主要有两点。

其一,扩大AI适用范围,如通过扩展API来提升可完成任务的类型和数量;其二,便于进一步提升AI可解释性,通过观察AI分配任务的方式就能理解它的“思路”。

能完成什么任务了?

目前从已经搭建好的TaskMatrix部分来看,它能完成的任务已经非常广泛。

小到文字、图像信息的基础信息处理,大到控制机器人平台、接入物联网这种通用平台任务,TaskMatrix都能搞定。

先来看看图像处理任务。

TaskMatrix解读用户想要完成的任务后,就能通过对话的方式,搞定PS(把老人背景P成白的)、解读图像、文生图、草图转真实图像、抠图等一系列现实生活中常见的图像处理操作:

26d994776d93409fa409f81c5c16c9eb~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=cf5kTPJiWDYf9YBKq%2Bkv4NYyXXM%3D

如果说这些都还太常见,基于TextMatrix还能搞定真·图像扩展,基于一小角扩展到一整张图的那种,而不仅仅是采用平铺的方式。例如输入一朵花:

587e126c3b5b4527bf41e870c2892144~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=HACEW9XWuTn4BgNloBPbwkz%2FqH0%3D

输出一片花田:

aff4f6af838349c89a17f87d0912be23~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=Dlvx1RW3EwnVyy3pBLV%2BEAGfQNo%3D

再来看看文字处理任务。

以往需要手动改AI写过的方案,如今直接将问题抛给AI,它就能完成,例如具体修改某个特定的步骤。

a7297634a66f42599149d4cc94597e32~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=Uf1pJddsnXjpdzqmmB2%2FNCYnXuU%3D

(像不像被甲方一点点催改文件的样子?只是如今你变成了甲方)

以后生成文章,就是连插图都配好的那种:

9e38750459af47858fc8464a2c2ed990~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=5rXV75%2Bx35IdV4FfXiHogiVL1FI%3D

当然,既然是微软的研究,少不了调用Office系列的API,包括做PPT这种活,如今交给AI来做就行:

1e21c9be5fd54052a5a04ecad8950095~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=ZKpINtnMSY9xkWzeoFso3cZkqdw%3D

再进一步到通用任务上,之前一直存在瓶颈的机器人和物联网等平台,如今TaskMatrix也给出了解决通用任务的方案。

家里接入AI后,和它对话就能完成你想要的各种琐碎任务,包括定闹钟、查看天气等:

917843407fb044eea712a98cdf868837~noop.image?_iz=58558&from=article.pc_detail&x-expires=1680867627&x-signature=RkqsoQWfJ4kNpLSdx8oOwLOrqo8%3D

属实是解放人类生产力了。

你想好把它用在哪里了吗?

论文地址:
https://arxiv.org/abs/2303.16434

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK