2

【精华】多模态研究学习

 2 years ago
source link: https://leezhao415.github.io/2022/07/26/%E3%80%90%E7%B2%BE%E5%8D%8E%E3%80%91%E5%A4%9A%E6%A8%A1%E6%80%81%E7%A0%94%E7%A9%B6%E5%AD%A6%E4%B9%A0/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【精华】多模态研究学习


文章目录


多模态研究学习

2021 年诺贝尔生理学、医学奖揭晓,获奖者是戴维・朱利叶斯(DavidJulius)和阿代姆・帕塔博蒂安(Ardem Patapoutian),表彰他们在 “发现温度和触觉感受器” 方面作出的贡献。那作为算法从业者,我们该思考些什么呢?人在感知这个世界的时候,主要的方式就是视觉,嗅觉,听觉等等。其中语音,文字和图像是最重要的传播载体,这三个领域的研究也都在这几年得到了快速的发展,今天我们就来看看其交叉的领域即文字 + 图像的图文多模态,其实多模态涉及的领域很多,目前主流的是文字 + 图像这一分支。从 2018 年 Bert 横空出世以后,以预训练模型为基石的各个领域百花齐放,下面梳理的多模态预训练模型也是在这样一个背景下诞生的,具体大概是从 2019 年开始涌现的。主要包括 VILBERTB2T2LXMERTVisualBERTUnicoder-VLVL-BERTUNITERPixel-BERTERNIE-ViLUNIMOCLIPFLAVAERNIE-VILGX-VLMOFASTA 等。目前布局在这一赛道的公司包括:腾讯、百度、谷歌、微软、Facebook、UCLA、京东、阿里等等。

1 多模态综述

多模态综述

2 X-VLM

字节 AI Lab 提出多模态模型:X-VLM,学习视觉和语言多粒度对齐

3 ERNIE-VILG

多模态生成模型 ERNIE-VILG

4 FLAVA

最新图文大一统多模态模型:FLAVA

ICML 2022|达摩院多模态模型 OFA,实现模态、任务和架构三个统一

电子科大(申恒涛团队)& 京东 AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能 SOTA!优于基于双视频表示的方法!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK