2

智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

 8 months ago
source link: https://www.chinaz.com/2023/1221/1584394.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

2023-12-21 08:33 · 稿源:站长之家

站长之家(ChinaZ.com)12月21日 消息:智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。

它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。

微信截图_20231221083343.png

模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。

CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。

Github:

https://github.com/CogNLP/CogAGENT

cogagent-chat:

https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary

cogagent-vqa:

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary

举报


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK