0

商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”

 1 year ago
source link: https://www.jiemodui.com/N/135171.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”

作者:LAN 发布时间: 2023-03-17 18:21

222222222222.jpg
图源:Unsplash

芥末堆文 近日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”。其拥有30亿参数,是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型,“书生2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

据介绍,“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。目前,“书生2.5”多模态通用大模型已在商汤参与的通用视觉开源平台OpenGVLab开源。

据悉,“书生2.5”可通过文本来定义任务,从而灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。

此外,“书生2.5”可根据文本快速检索出视觉内容,例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。

1、本文是 芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;
3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。

来源: 芥末堆

芥末堆商务合作:010-5726 9867

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK