研究人员开源端到端多模态大模型 LLaVA-1.5，可与 GPT-4V 形成正面竞争

11 months ago

source link: https://www.8btc.com/article/6834792
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

2023-10-08 05:59

研究人员开源端到端多模态大模型 LLaVA-1.5，可与 GPT-4V 形成正面竞争

据站长之家 10 月 8 日报道，来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源了一款全新的端到端多模态大模型 LLaVA-1.5，该模型在 11 项基准测试中都实现了新的状态最优（SOTA）成绩，包括视觉问答、图像 caption 等任务，展现出了强大的多模态理解能力。可与 OpenAI 的 GPT-4 V 形成正面竞争。

相比之前的版本 LLaVA，LLaVA-1.5 采用了更高分辨率的图像输入、更大规模的语言模型（13B 参数），以及面向学术任务的视觉问答数据集，从而获得了显著的性能提升。研究人员发现，与额外的大规模预训练相比，视觉指令微调对提高多模态能力更为关键。

Recommend

研究人员开源端到端多模态大模型 LLaVA-1.5，可与 GPT-4V 形成正面竞争

研究人员开源端到端多模态大模型 LLaVA-1.5，可与 GPT-4V 形成正面竞争

Recommend

SPARCs in Space: The Cobham UT700 Leon3FT Processor

如何看待数据库的性能

Flagella - Structure, Types and Functions

达音科隼 Ultra 体验，千元单动圈耳机的准则_原创_新浪众测

9月中国消费行业投融资观察：消费企业太惨了，7家终止IPO，13家暂停

深入了解快速排序：原理、性能分析与 Java 实现

es针对nested类型数据无法进行过滤查询的问题记录 - blayn

消息称一加智能手表OnePlus Watch 2明年发布采用圆形设计

中国移动王晓云：AI 赋能网络需围绕数据、模型、架构和实用四个方面重点攻关

SQL优化从未如此简单，PawSQL Cloud实践指南（新增Oracle/人大金仓数据库语法支持）

About Joyk