人工智能教父Yann LeCun提出的『能量模型』到底是个啥？

AI的未来是个“ppt”？

作者 | 贝爽

“能量自监督学习到底是什么鬼？”不少Reddit网友评论说。

刚刚，深度学习教父Yann LeCu登上了Reddit热搜。一位不知名的开发者发表了一篇题为“Yann LeCun提出基于能量的自监督学习到底是什么”的帖子，引发众多网友讨论。

讨论的焦点之一是，基于能量的自监督学习模型能做什么？有什么优势或意义？

这位开发者刚刚看完LeCun最新的主题演讲，他说，Yann LeCun似乎是在建议训练一个有条件的潜在变量模型，它可以根据输入和潜在变量预测输出（类似于pix2pix GAN或VAE）；同时，它也可以处理图像、视频或者音频等不同类型。

但有关优化生成模型的方法有很多，比如OpenAI通过iGPT预训练预测缺失像素，采用“对比预测编码法”，通过对比损失来进行丢失信息预测。这些方法在实际应用中均取得不错的成果。

相比之下，基于能量的自监督学习好像并没有特别之处，也没有相关的成功应用案例。

Reddit上，超过95%的网友对这一观点表示了赞同。

另外，还有一位网友透露，最近3-4年很多专家都对它很着迷，他们认为基于能量的模型是深度学习的『未来』。

那么，代表ML未来的『能量模型』到底是什么？

AI的未来：『能量』SSL模型

Yann LeCun，是2018年图灵奖得主之一，与Geoffrey Hinton 和 Yoshua Bengio二人被合称为深度学习三巨头。同时，他自己也被称为“CNN之父”。

LeCun在在业界和学术界颇具影响力。目前，他在Facebook公司担任人工智能研究院院长一职，同时也在纽约大学、Courant 数学科学研究所、神经科学中心和电气与计算机工程系等担任要职。

2019年11月，LeCun代表Facebook参加了《Using Physical Insights for Machine Learning》主题研讨会，并发表了名为《基于能量的自监督学习（Energy-Based Self-Supervised Learning）》的主题演讲。

在这篇演讲中，LeCun详细介绍了基于能量的学习方法在解决现有挑战方面的可能性。

近几年，深度学习在计算机感知、自然语言理解和控制方面取得了重大进展。但这些成功在很大程度上都依赖于监督学习或无模型强化学习。其中，监督学习是从标记的训练数据来推断一个功能的机器学习任务。强化学习分为有模型和无模型两种策略，前者区别与后者的特点是，有模型的方法主要学习前向状态转移模型p(st+1|st,at)，而无模型方法则不是。

从现有研究来看，无论是监督学习，还是无模型强化学习都存在明显的局限性。前者需要人类提供大量数据标签，后者需要机器学习动作回报最大化。

也就是说，监督学习只适用于特定任务，即使是学习简单的任务；强化学习也需要与环境进行大量的交互。例如，它在游戏和仿真工作中十分有效，但在现实世界很难奏效。

但如果存在一款模型能够像人类或动物那样，只需要少量观察和互动就能学习大量与任务无关的知识，那么这些现实困境就可以被很好的解决。而这款模型必须依靠自监督学习（Self-Supervised Learning，简称SSL）方法。

LeCun认为，SSL是深度学习的『未来』，基于能量的SSL可以在回避概率的同时处理不确定性。以下是基于能量的SSL模型：

标量值能量函数F（x，y）可以被测量，包括：

测量x和y之间的兼容性。
低能量：y是x的最佳预测
高能量：y是x的最差预测

同时，它也有无条件的模型版本。

在训练方面，首先将能量函数参数化，在获取训练数据，最后计算出新Shape。这个过程通常有两种方法，一是对比法（Contrastive Methods），二是建构法（Architectural Methods）。

其中对比法涉及三种策略：

C1：数据点能量下推，其它位置上推：最大似然（Max likelihood）。

C2：数据点能量下推，选择位置上推：最大似然和MC/MMC/HMC，对比散度，度量学习，噪声对比估计，比率匹配，噪声对比估计，最小概率流，对抗生成器GAN

C3：训练一个函数，将数据流形上的点映射到数据流形上的点：去噪自动编码器，屏蔽自动编码器（如BERT）

建构法涉及三种策略：

A1：建立机器使低能量物质的体积有界：PCA，K-均值，高斯混合模型，平方ICA。

A2：使用正则化项来度量具有低能量的空间体积：稀疏编码、稀疏自动编码器、LISTA、变分自动编码器

A3：F（x，y）=C（y，G（x，y）），使G（x，y）相对于y尽可能“恒定”：收缩自动编码器，饱和自动编码器。

A4：最小化梯度，最大化数据点周围的曲率：分数匹配

在此基础上，LeCun还演示了关于视频预测的应用实例。他表示，无监督学习会成为未来的主流，能解决我们的学习系统难以处理的众多问题，研究无监督和预测性前向模型（predictive forward model）的建立，也会是接下来几年的挑战。

网友评论：『能量』的意义在哪？？

实际上，LeCun的能量SSL理论还处在“ppt阶段”。

目前还未有大量的成功应用案例，而他在PPT中也仅演示了自动驾驶预测视频的结果。一位网友表示，他曾利用能量SSL模型做过一项测试。

如上文所述，在能量函数F（x，y）最小化上，LeCun提供了两种训练方法：对比法和和建构法。但在这个过程中，他认为有多个不合理之处。比如：自动编码器的潜在变量在哪里？按构造，有没有事先分配样本的潜在权利？

如果训练的每一个SSL模型都可以解释为基于潜在变量的能量模型，这可能是不正确的。如果抛开潜在变量，认为每个模型都是基于能量的模型，可以勉强接受，但这还有什么意义呢？

它仅仅能够作为一种解释性理论，似乎并不具备应用的价值。

还有一位网友表示，LeCun所作的可能是一项“基础性研究”，就像Hinton研究胶囊网络（CapsulesNet）一样。基础性研究成功的可能性很低，通常是其他人在此研究之上开创应用。

另一位网友表示，Yann基于能量的学习方法确实启发了基于深层能量的强化学习（RL）研究，软演员-评论家（Soft Actor-Critic，SAC）模型已经在多个RL基准上实现了SOTA。

那么，你同意这位网友的看法吗？你认为『能量模型』的价值在哪里？

PPT文件：

http://helper.ipam.ucla.edu/publications/mlpws4/mlpws4_15927.pdf

演讲视频：

https://www.youtube.com/watch?v=A7AnCvYDQrU&feature=youtu.be&t=2169

人工智能教父Yann LeCun提出的『能量模型』到底是个啥？

人工智能教父Yann LeCun提出的『能量模型』到底是个啥？

Recommend

如何找回被删除的网页/新闻

坐拥百万用户的开源项目没钱了，尤雨溪发推力挺被质疑的全职维护者

Xbox is testing accessible chat options like transcription and speech synthesis

AMD Improves Resident Evil Village Performance - Get Radeon Adrenalin 21.5.1

Biden Plans to Strengthen US Cyberdefenses

程序员漫画：我需要这样的翻译工具

Cinema 4D小技巧集-C4D提高效率技巧

The Multo Intelligent Cooking System Tried to Kill Me With Undercooked Chicken

US Election Systems Are Exposed to Cyberattacks

ae wiggle表达式震颤效果祥解

About Joyk