6

人工智能教父Yann LeCun提出的『能量模型』到底是个啥?

 3 years ago
source link: https://www.techug.com/post/a-study-of-loneliness-redit-hot-discussion-what-is-the-energy-model-proposed-by-ai-godfather-yann-lecun.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

人工智能教父Yann LeCun提出的『能量模型』到底是个啥?

2



img16080328871600192036.png

AI的未来是个“ppt”?

作者 | 贝爽

“能量自监督学习到底是什么鬼?”不少Reddit网友评论说。

刚刚,深度学习教父Yann LeCu登上了Reddit热搜。一位不知名的开发者发表了一篇题为“Yann LeCun提出基于能量的自监督学习到底是什么”的帖子,引发众多网友讨论。

讨论的焦点之一是,基于能量的自监督学习模型能做什么?有什么优势或意义?

这位开发者刚刚看完LeCun最新的主题演讲,他说,Yann LeCun似乎是在建议训练一个有条件的潜在变量模型,它可以根据输入和潜在变量预测输出(类似于pix2pix GAN或VAE);同时,它也可以处理图像、视频或者音频等不同类型。

但有关优化生成模型的方法有很多,比如OpenAI通过iGPT预训练预测缺失像素,采用“对比预测编码法”,通过对比损失来进行丢失信息预测。这些方法在实际应用中均取得不错的成果。

相比之下,基于能量的自监督学习好像并没有特别之处,也没有相关的成功应用案例。

Reddit上,超过95%的网友对这一观点表示了赞同。

另外,还有一位网友透露,最近3-4年很多专家都对它很着迷,他们认为基于能量的模型是深度学习的『未来』。

那么,代表ML未来的『能量模型』到底是什么?

AI的未来:『能量』SSL模型

Yann LeCun,是2018年图灵奖得主之一,与Geoffrey Hinton 和 Yoshua Bengio二人被合称为深度学习三巨头。同时,他自己也被称为“CNN之父”。

LeCun在在业界和学术界颇具影响力。目前,他在Facebook公司担任人工智能研究院院长一职,同时也在纽约大学、Courant 数学科学研究所、神经科学中心和电气与计算机工程系等担任要职。

2019年11月,LeCun代表Facebook参加了《Using Physical Insights for Machine Learning》主题研讨会,并发表了名为《基于能量的自监督学习(Energy-Based Self-Supervised Learning)》的主题演讲。

在这篇演讲中,LeCun详细介绍了基于能量的学习方法在解决现有挑战方面的可能性。

近几年,深度学习在计算机感知、自然语言理解和控制方面取得了重大进展。但这些成功在很大程度上都依赖于监督学习或无模型强化学习。其中,监督学习是从标记的训练数据来推断一个功能的机器学习任务。强化学习分为有模型和无模型两种策略,前者区别与后者的特点是,有模型的方法主要学习前向状态转移模型p(st+1|st,at),而无模型方法则不是。

从现有研究来看,无论是监督学习,还是无模型强化学习都存在明显的局限性。前者需要人类提供大量数据标签,后者需要机器学习动作回报最大化。

也就是说,监督学习只适用于特定任务,即使是学习简单的任务;强化学习也需要与环境进行大量的交互。例如,它在游戏和仿真工作中十分有效,但在现实世界很难奏效。

但如果存在一款模型能够像人类或动物那样,只需要少量观察和互动就能学习大量与任务无关的知识,那么这些现实困境就可以被很好的解决。而这款模型必须依靠自监督学习(Self-Supervised Learning,简称SSL)方法。

LeCun认为,SSL是深度学习的『未来』,基于能量的SSL可以在回避概率的同时处理不确定性。以下是基于能量的SSL模型:

标量值能量函数F(x,y)可以被测量,包括:

  • 测量x和y之间的兼容性。
  • 低能量:y是x的最佳预测
  • 高能量:y是x的最差预测

同时,它也有无条件的模型版本。

在训练方面,首先将能量函数参数化,在获取训练数据,最后计算出新Shape。这个过程通常有两种方法,一是对比法(Contrastive Methods),二是建构法(Architectural Methods)。

其中对比法涉及三种策略:

C1:数据点能量下推,其它位置上推:最大似然(Max likelihood)。

C2:数据点能量下推,选择位置上推:最大似然和MC/MMC/HMC,对比散度,度量学习,噪声对比估计,比率匹配,噪声对比估计,最小概率流,对抗生成器GAN

C3:训练一个函数,将数据流形上的点映射到数据流形上的点:去噪自动编码器,屏蔽自动编码器(如BERT)

建构法涉及三种策略:

A1:建立机器使低能量物质的体积有界:PCA,K-均值,高斯混合模型,平方ICA。

A2:使用正则化项来度量具有低能量的空间体积:稀疏编码、稀疏自动编码器、LISTA、变分自动编码器

A3:F(x,y)=C(y,G(x,y)),使G(x,y)相对于y尽可能“恒定”:收缩自动编码器,饱和自动编码器。

A4:最小化梯度,最大化数据点周围的曲率:分数匹配

在此基础上,LeCun还演示了关于视频预测的应用实例。他表示,无监督学习会成为未来的主流,能解决我们的学习系统难以处理的众多问题,研究无监督和预测性前向模型(predictive forward model)的建立,也会是接下来几年的挑战。

网友评论:『能量』的意义在哪??

实际上,LeCun的能量SSL理论还处在“ppt阶段”。

目前还未有大量的成功应用案例,而他在PPT中也仅演示了自动驾驶预测视频的结果。一位网友表示,他曾利用能量SSL模型做过一项测试。

如上文所述,在能量函数F(x,y)最小化上,LeCun提供了两种训练方法:对比法和和建构法。但在这个过程中,他认为有多个不合理之处。比如:自动编码器的潜在变量在哪里?按构造,有没有事先分配样本的潜在权利?

如果训练的每一个SSL模型都可以解释为基于潜在变量的能量模型,这可能是不正确的。如果抛开潜在变量,认为每个模型都是基于能量的模型,可以勉强接受,但这还有什么意义呢?

它仅仅能够作为一种解释性理论,似乎并不具备应用的价值。

还有一位网友表示,LeCun所作的可能是一项“基础性研究”,就像Hinton研究胶囊网络(CapsulesNet)一样。基础性研究成功的可能性很低,通常是其他人在此研究之上开创应用。

另一位网友表示,Yann基于能量的学习方法确实启发了基于深层能量的强化学习(RL)研究,软演员-评论家(Soft Actor-Critic,SAC)模型已经在多个RL基准上实现了SOTA。

那么,你同意这位网友的看法吗?你认为『能量模型』的价值在哪里?

PPT文件:

  • http://helper.ipam.ucla.edu/publications/mlpws4/mlpws4_15927.pdf

演讲视频:

  • https://www.youtube.com/watch?v=A7AnCvYDQrU&feature=youtu.be&t=2169

相关链接:

  • https://www.reddit.com/r/MachineLearning/comments/kc8ruw/d_what_exactly_is_yann_lecuns_energy_based/
  • http://www.ipam.ucla.edu/programs/workshops/workshop-iv-using-physical-insights-for-machine-learning/?tab=schedule

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK