一文盘点NeurIPS’22杰出论文亮点！英伟达AI大佬一句话总结每篇重点，一并看透今年技术趋势

明敏 2022-11-28 13:02:00 来源：量子位

快来抄笔记

Pine 明敏发自凹非寺

量子位 | 公众号 QbitAI

15篇NeurIPS’22杰出论文重磅出炉，具体亮点都是啥？

来来来，大佬已经帮你总结好了！

d1f1554e63ad4e828e7c1fa00a735736~tplv-tt-shrink:640:0.image

师从李飞飞，现在在英伟达工作的大佬，用49条推文，带你回顾过去一年AI圈的重要研究。

虽然到不了NeurIPS’22的现场，但也能提前在推特上体验下大会的盛况。

总结推文发出之后，立刻在网上掀起一阵热度，众多AI大佬都在转发。

2214798f5c83488f884f3ea6097cd44e~tplv-tt-shrink:640:0.image

还有人从中看出了今年的技术趋势。

d92e6e3e6f1040feb405acdf236ea189~tplv-tt-shrink:640:0.image

每篇亮点都是啥？

总结这一线程的老哥名叫Linxi“Jim”Fan（以下简称Jim）。

对于每篇论文，他都给出了一句话提炼亮点，并简要解释了自己的看法，还将论文地址和相关拓展链接一并附上。

具体都讲了啥，我们一篇篇来看~

a738ccb848cb4e38ba2e3e89613708da~tplv-tt-shrink:640:0.image

1、训练计算最优的大语言模型

一句话总结：提出一个700亿规模的新语言模型“Chinchilla”，效果比千亿级别GPT-3、Gopher更强。

Jim表示，通过这个模型，研究人员证明了想要实现“计算最优”，模型大小和训练数据规模必须同等缩放。

这意味着，目前大多数大语言模型的训练数据是不够的。

再考虑到新的缩放定律，即使将模型参数扩大到千万亿级，效果恐怕也不及将训练token提升4倍。

a41492a96df24e8ba1aaaa65f614fbce~tplv-tt-shrink:640:0.image

2、谷歌Imagen的强，在于文本编码器

一句话总结：Imagen是一个大型从文本到图像的超分辨率扩散模型，可以生成逼真图像，并且在评级中击败了Dall·E 2。

Jim指出，和Dall·E 2相比，Imagen使用了更为强大的文本编码器T5-XXL，这直接影响了它的语言理解能力。

比如同题对比中，左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”，右边DALL·E 2选手的创作则是酱婶儿的：

bfc094f224754f7c94a1b46626b4dea0~tplv-tt-shrink:640:0.image

3、ProcTHOR：房间模型模拟器

3213e1ccaeea4a11bc7540ec13a43d18~tplv-tt-shrink:640:0.image

一句话总结：ProcTHOR是一个可以生成大量定制化、可实际应用房间模型的AI。

和Chinchilla一样，ProcTHOR也需要大量数据来训练，然后从中摸索出自己的生成方案。

该成果由艾伦人工智能实验室提出，在此之前他们还为家用机器人提出了一些模型，如AI2THOR 和 ManipulaTHOR，可以让他们感知房间环境。

4、MineDojo：看70000小时《我的世界》视频学会人类高级技巧

0bbe4b1a25bd44e0a2944e1c35fdc633~tplv-tt-shrink:640:0.image

一句话总结：该研究提出一个由3个智能体（agent）组成的“具身GPT-3”，可以感知无限世界并在其中行动。

研究团队认为，想要训练出通才agent需要具备3方面因素：

第一、一个开放的环境，可以包含无限不同种类的任务（比如地球就是个开放环境）；

第二、一个大规模知识库，可以教会AI做什么事、该做哪些事；

第三、足够灵活的代理框架，能将知识转化为实际操作。

综上，《我的世界》是一个绝佳的训练场地。研究团队让AI看了油管上70000小时《我的世界》视频后，它学会了使用钻石镐、打造“简易避难所”等人类玩家的高级操作。

值得一提的是，该成果的模拟套件、数据库、算法代码、预训练模型，甚至注释工具，全部对外开源！

AI看了70000小时《我的世界》视频学会人类高级技巧，网友：它好痛苦

5fc5dfb72f7a4019b023986d14fb3349~tplv-tt-shrink:640:0.image

5、LAION-5B：史上最大规模公共开放的多模态图文数据集

be0c2d6686104597a5640d7e6cb17875~tplv-tt-shrink:640:0.image

一句话总结：一个包含58.5亿个CLIP过滤的图像-文本对数据集。

LAION-5B不用过多介绍了，Stable Diffusion使用正是它。

该数据集获得了今年NeurIPS最杰出数据集论文奖。

9bb468e3b86648ea8b57b2cc811ac204~tplv-tt-shrink:640:0.image

目前Stable Diffusion 2也已经上线了。

6、超越神经网络缩放定律：通过数据集修剪击败幂律

f955b4c7afb74fb598021cc2cf408890~tplv-tt-shrink:640:0.image

一句话总结：通过仔细筛选训练示例、而不是盲目收集更多数据，有可能大大超越神经网络的缩放定律。

该研究中，Meta和斯坦福的学者们通过数据蒸馏，缩小数据集规模，但是保持模型性能不下降。

实验验证，在剪掉ImageNet 20%的数据量后，ResNets表现和使用原本数据时的正确率相差不大。

研究人员表示，这也为AGI实现找出了一条新路子。

剪掉ImageNet 20%数据量，模型性能不下降！Meta斯坦福等提出新方法，用知识蒸馏给数据集瘦身

7、让AI自己调超参数

aeab1d0f463a40b5833beb9423cce63b~tplv-tt-shrink:640:0.image

一句话总结：使用超级随机梯度下降法，实现自动调超参数。

谷歌大脑设计了一个基于AI的优化器VeLO，整体由LSTM（长短期记忆网络）和超网络MLP（多层感知机）构成。

其中每个LSTM负责设置多个MLP的参数，各个LSTM之间则通过全局上下文信息进行相互协作。

采用元训练的方式，VeLO以参数值和梯度作为输入，输出需要更新的参数。

结果表明，VeLO在83个任务上的加速效果超过了一系列当前已有的优化器。

让AI自己调整超参数，谷歌大脑新优化器火了，自适应不同任务，83个任务训练加速比经典Adam更快

03c3484a9f7443b780f2b9b29a79323d~tplv-tt-shrink:640:0.image

8、利用自然语言和程序抽象让机器学会人类归纳性偏好

3240a8c7c9594f81ab87b055f3cb246b~tplv-tt-shrink:640:0.image

一句话总结：利用自然语言描述和引导程序，让智能体的行为更像人类。

论文表明，语言和程序中存储了大量人类抽象先验知识，智能体可以在元强化学习设置中学到这些归纳性偏好。

如下是是否使用人类抽象先验知识的对比：

aa70acfb7d224552b5471e6a5d517fe7~tplv-tt-shrink:640:0.image

9、新方法提高扩散模型生成结果

一句话总结：英伟达通过对扩散模型的训练流程进行分析，得到新的方法来提高最后生成的结果。

eba6ef9c2c7643459a8efe422a04b67a~tplv-tt-shrink:640:0.image

此次研究提出了很多实用的方法改进了模型的生成效果：

一个新的采样过程，大大减少了合成过程中的采样步数；
改进了训练过程中噪声水平的分布；
其他一些改进方法，如non-leaking增强，即不会将生成分布暴露给生成器。

10、神经语料库索引器（NCI）

一句话总结：NCI可以直接为特定的查询生成相关的文档标识符，并显著提高信息检索性能。

9254b3b40a674fe09204ae32a6fa2e41~tplv-tt-shrink:640:0.image

传统的检索系统是基于文档向量嵌入和最近邻搜索。

而NCI则使用了一个端到端的可微模型，极大地简化了搜索管道，并且有可能在单个框架中统一检索、排序和Q&A。

eb2ece6296874054b5aadf2739b166a6~tplv-tt-shrink:640:0.image

11、一种新的采样方法

一句话总结：加州大学设计出一个最有效的算法从多个分布中进行采样，按需采样。

6ef42526fdbe4492825f1e8cf8d8c202~tplv-tt-shrink:640:0.image

研究利用随机零和博弈的方法研究了多重分布学习问题。

多重分布学习在机器学习公平性、联邦学习以及多主题协作中都有着重要的应用。

在这其中，分布可能是不平衡或重叠的，所以最佳的算法应该按需采样。

12、分布外样本（OOD）检测是可学习的吗？

一句话总结：OOD检测在某些条件下是不可学习的，但是这些条件不适用于一些实际情况。

Jim表示，具体来讲，我们所熟悉的监督式学习的测试数据是内部分发的，但现实世界却是混乱的。

而这个研究运用PAC学习理论，提出了3个具体的不可能性定理，推断应用于实际环境中确定OOD检测的可行性。

更重要的是，此项工作还为现有的OOD检测方法提供了理论基础。

13、基于黎曼得分的生成模型（RSGMs）

8f18934462c341c68948803be5ab8f03~tplv-tt-shrink:640:0.image

一句话总结：这是一类将模型扩展到黎曼流形的生成模型（与欧几里德空间中的数据相反）。

扩散模型目前已经在人工智能领域取得了很大的进展，不过大多数模型都被假设是一个扁平的流形。

但在机器人学、地球科学或蛋白质折叠等领域，数据也能很好地在黎曼流形上描述。

这项研究使得Stable Diffusion有望应用在气候科学上。

7aee1d3e30374379b2aac5c7c653ebec~tplv-tt-shrink:640:0.image

14、SGD的高维极限定理

一句话总结：研究用一个统一的方法，了解在高维情况下具有恒定步长的随机梯度下降的缩放极限。

d2bbab41d888424d8a8d63332ea1f968~tplv-tt-shrink:640:0.image

其核心贡献是发展一个统一的方法，在连续步长之下，使我们了解SGD在高维的比例限制。

研究团队还在目前正流行的模型中证明了这个方法，示例也展示了很好的效果：

包括收敛的多模态时间尺度以及收敛到次优解决方案，概率从随机初始化开始有界地远离零。

15、RODEO：减小估计梯度方法REINFORCE的方差。

一句话总结：利用Stein算子控制变量来增强REINFORCE的性能。

9444a9615c1546d2a5708e5b31d26893~tplv-tt-shrink:640:0.image

离散变量使神经网络不可微，所以估计梯度的一种常见方法是REINFORCE，但这种方法又存在很大的方差。

本文提出了一种利用Stein算子控制变量增强REINFORCE的高性能方法：“ RODEO”。

并且，这种控制变量可以在线调整以最小化方差，并且不需要对目标函数进行额外的评估。

在基准生成建模任务中，例如训练二进制变分自动编码器，在具有相同数量的函数估计的情况下，研究的梯度估计器实现了有史以来最低的方差。

大佬来自英伟达，师从李飞飞

总结这一超强线程的大佬Jim，现就职于英伟达。

ccf9e91bcfd14fe4a931ef7da47df704~tplv-tt-shrink:640:0.image

他的研究方向是开发具有通用能力的自主智能体，如上让AI学会《我的世界》人类玩家技巧的论文，正是他的成果。

他博士就读于斯坦福大学视觉实验室，师从李飞飞。

曾在谷歌云、OpenAI、百度硅谷AI实验室等实习。

参考链接：
[1]https://twitter.com/DrJimFan/status/1596911064251187201
[2]https://jimfan.me/

一文盘点NeurIPS'22杰出论文亮点！英伟达AI大佬一句话总结每篇重点，一并看透今年技术...

一文盘点NeurIPS’22杰出论文亮点！英伟达AI大佬一句话总结每篇重点，一并看透今年技术趋势

每篇亮点都是啥？

1、训练计算最优的大语言模型

2、谷歌Imagen的强，在于文本编码器

3、ProcTHOR：房间模型模拟器

4、MineDojo：看70000小时《我的世界》视频学会人类高级技巧

5、LAION-5B：史上最大规模公共开放的多模态图文数据集

6、超越神经网络缩放定律：通过数据集修剪击败幂律

7、让AI自己调超参数

8、利用自然语言和程序抽象让机器学会人类归纳性偏好

9、新方法提高扩散模型生成结果

10、神经语料库索引器（NCI）

11、一种新的采样方法

12、分布外样本（OOD）检测是可学习的吗？

13、基于黎曼得分的生成模型（RSGMs）

14、SGD的高维极限定理

15、RODEO：减小估计梯度方法REINFORCE的方差。

大佬来自英伟达，师从李飞飞

Recommend

国产ModelY售价全球最低；iOS版微信8.0.31内测；小米13即将发布

没有账号注销，所以麻烦大家举报一下

浏览器看流媒体卡死

TD发布《2022年汽车垂直资讯渠道价值洞察报告》，易车在多领域领跑行业

斯诺威公司重整投资人为宁德时代

Wealthiest People in Turkey (November 26, 2022)

Steam创下新纪录：同时在线玩家突破3100万

B站公布2022年度科普UP主无穷小亮获最受欢迎创作者奖项

3 ways modern, open technologies can boost recruiting and retention

谈谈我的「数字文具盒」 - 数字基建 - 7Wate

About Joyk