【精华】多模态研究学习

文章目录

多模态研究学习

2021 年诺贝尔生理学、医学奖揭晓，获奖者是戴维・朱利叶斯（DavidJulius）和阿代姆・帕塔博蒂安（Ardem Patapoutian），表彰他们在 “发现温度和触觉感受器” 方面作出的贡献。那作为算法从业者，我们该思考些什么呢？人在感知这个世界的时候，主要的方式就是视觉，嗅觉，听觉等等。其中语音，文字和图像是最重要的传播载体，这三个领域的研究也都在这几年得到了快速的发展，今天我们就来看看其交叉的领域即文字 + 图像的图文多模态，其实多模态涉及的领域很多，目前主流的是文字 + 图像这一分支。从 2018 年 Bert 横空出世以后，以预训练模型为基石的各个领域百花齐放，下面梳理的多模态预训练模型也是在这样一个背景下诞生的，具体大概是从 2019 年开始涌现的。主要包括 VILBERT 、 B2T2 、 LXMERT 、 VisualBERT 、 Unicoder-VL 、 VL-BERT 、 UNITER 、 Pixel-BERT 、 ERNIE-ViL 、 UNIMO 、 CLIP 、 FLAVA 、 ERNIE-VILG 、 X-VLM 、 OFA 、 STA 等。目前布局在这一赛道的公司包括：腾讯、百度、谷歌、微软、Facebook、UCLA、京东、阿里等等。

赏

【精华】多模态研究学习

【精华】多模态研究学习

多模态研究学习

1 多模态综述

2 X-VLM

3 ERNIE-VILG

4 FLAVA

Recommend

ReSharper 2022.2 Comes With C# 11 Support, Solution-Wide Analysis Optimizations,...

【精华】多目标跟踪MOT综述

Optimization Tips for Your SEO Career (and Your Life)

【精华】计算机视觉研究方向综述

DevOps 的未来：值得关注的趋势

3 Former Netflix Execs Reveal How They Launched Production Companies

来客推|同样都是做电商，凭什么他们日入过万，你却成了韭菜？

智商税是新消费品牌的原罪吗？

Spinach.io for Daily Standups

三农短视频的红与黑

About Joyk