41

多巴胺引领下的分布式强化学习

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzA3MzQwNzI3OA%3D%3D&%3Bmid=2651384881&%3Bidx=1&%3Bsn=0faf30bbeb5e4f7b386c9ba08aab8ebb
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

1月份有关机器学习和神经科学研究领域的重大论文可谓这一篇Nature主刊的文章, 一出头便引爆朋友圈:

yee6fmU.png!web

这篇署名作者包含了deepmind 创始人Demis Hassabis的文章,到底意义在哪里?我们从多巴胺和强化学习的研究历史中娓娓道来一窥究竟。

1  强化学习基本概念

让机器来决策,首先体现在如何模仿人类的决策。对于决策这个问题, 对于人类是困难的, 对于机器就更难。 而强化学习, 就是一套如何学习决策的方法论。

强化学习最初的体现就是试错学习, 因此理解强化学习的第一个层次就是如何通过一个简单的机制在不确定的环境下进行试错, 掌握有用的信息。

UNzMnu6.jpg!web

在这个框架下, 我们需要掌握的只有两个基本要素, 一个是行为,一个是奖励。 在这个级别的强化学习, 就是通过奖励,强化正确的行为。

所谓行为,指从有限的选项里选一个最佳的, 所谓奖励 ,指选哪一个都有正确的可能,但是我们预知哪一个最优,能知道的只是选择了这个行为之后,环境给的反馈。

如何从根据奖励到学习决策, 这里的思想在于最大化奖励。首先奖励是未来的事情而非当下的事情,因此我们用奖励的 期望 来替代奖励。每个行为的选择都可以使得拿到奖励的期望变大或变小, 学习的过程就是使得每个决策的改进都向着提高奖励期望的方向即可。

2 强化学习的心理学与神经科学基础

强化学习的理论是典型的心理学和计算科学交叉的产物, 强化学习之父sutton & button 建立了整个时间差分学习的理论(TD learning), 并且用一套完整的数学公式表达这个过程(Rescorla and Wagner formula), 而之后演绎出非常完整的TD学习公式, 称为整个model free reinforcement Learning的根据。

qENNNjM.jpg!web

这套数学理论的核心是正确行为的核心在于正确预测未来奖励, 虽然对未来的预测总是不准确的, 我们却可以随着证据的增加用迭代的方法逼近正确。新的预测和之前的预测的差距被称为TD误差(我们可以称之为超乎预料的量)。

强化学习的理论指出, 虽然绝对的预测不可得到, 但当下一步和当下步的奖励预测之差逐步趋近于零, 我们就达到了强化学习的最优状态。因此, 最终学习的直接目标不是奖励最大, 而是最小预测误差。这个理论可以极好的解释一级和二级条件反射的心理学现象(通过值函数建立一系列刺激和最终奖励的联系, 例如狗听摇铃分泌唾液是因为奖励的预期)。

有了TD误差,如何优化决策(行为)呢?毕竟它只是对奖励的估计啊 。但是不要忘了预测是行为的基础, 有关行为的优化,强化学习分成两种不同的实现方法, 一种是基于这个TD误差的估计直接修改不同行为的概率, 好比当上一步的行为导致现实低于预期, 那个那个行为的概率就要减小, 反之亦然(policy gradient, actor-critic)。 

另一个方法是直接把行为本身当作预测函数的一个变量, 这样直接每次直接找到对应最大预期的行为就可以了, 该方法把行为控制放到了预测里(Q learning)。这两种方法构成强化学习的两大基本方法。

具体Q学习的计算公式可以由TD误差的更新公式直接导出,又称为Bellaman 优化公式, 这个公式告诉我们可以通过每一步动态的迭代Q(在特定行为下奖励的期望),得到真实的期望。 

如果人或动物真的在进行类似刚刚归纳的强化学习, 那么它必然有其依赖实现的神经基础。那么是什么样的神经功能能够如何实现实现刚刚说的算法了。 什么是期望(预测)误差在大脑中的表现形式了? 

一种主流观点认为多巴胺神经元能够代言这个角色。很多人认为多巴胺是代表快乐的神经递质, 而事实上, 神经科学家发现更准确的描述是它其实传递的是刚刚说的TD误差, 也就是一种对未来奖励的预计和之前的心理基准的比较。也是为什么真正的快乐总是在于进步而非奖励本身,当我们得到一个超乎预期的结果, 会特别高兴, 反之沮丧。

Niv, Yael, Michael O. Duff, and Peter Dayan. "Dopamine, uncertainty and TD learning." Behavioral and brain Functions 1.1 (2005): 6.

经典的强化学习理论告诉我们要追求快乐, 奖励的绝对值没有用处,我们要的是对奖励相对变化的预期。一个山村少年通过努力进入大学租房到买房定居, 其过程中的快乐总值将远远大于一步到位的富二代, 上帝在这里终于公平了。 这里的另一点启示是降低你的期望, 期望越高失望越大此言不虚,期望低才有利于收到一些正向的多巴胺信号。

3 分布式的强化学习

上述经典的强化学习理论有一个致命问题,那就是没有涵盖对 未来不确定性 的预期。强化学习所作的估值运算本质上是对没有发生的事情的预测, 那么必然的涉及不确定性, 可是在刚刚的公式里, 不确定性属于缺席的状态。 

我们可以联想一下人类的决策过程, 假如某人可以选择有风险的赌局(在100元和一无所获之间下注,两种情况各有50%的概率), 或者可选择一个可以确定得到收益的稳定投资。如果他宁可选择一个低于五十元收益的稳定投资,也不愿选择有风险的赌局(赌局的期望值是五十元),因为大部分人是风险厌恶的, 克服这个心理就要支付一定的对价,当然也有少量疯狂赌徒此选择偏好是反过来的。

这个实验说明其实不光是未来奖励的期望而是整个分布, 不确定性的大小会影响我们的决策。   具体到学习算法, 它的意义在于我们不仅需要估计期望, 更需要估计整个分布函数,把它当成我们的预测目标。

FBnIniu.png!web

最初应用到这一思想的依然不是神经科学领域, 而是最积极寻求改变的机器学习领域。

qiI3Anr.png!web

我们可以把Q学习中关于Q值的计算公式的的Q值和奖励直接替换成一个分布函数, 并得到贝拉曼优化公式的分布函数版. 注意, 当代数变量被替换成一个分布函数时候, 和这些变量有关的基本算符将变成算子形式, 这种改变保证了所有的基本运算都可以顺利的被继承下来,而方程的形式不变。具体算子在干什么, 我们可以把它理解为对一个分布函数进行的操作,也就是对一个函数进行的变换, 如下图所示。

YVjI32M.png!web

VnINRnF.png!web

利用这个算法, 我们可以得到一个最终稳定的Q分布,而非Q值。下图表示了一系列当红强化学习算法在Atari Game的成绩, 我们发现2017年以后, 最领先的算法均是这种基于分布式设计的算法。

4  分布式强化学东西算法的生物实现

刚刚讲了一大堆分布, 算子, 但是生物的大脑又不是数学家设计的, 它们真的也进行了类似如此复杂的运算吗?这就是这一次Deepmind 刷屏文章的发力点所在。 它用一个其实大家已经已知的生物学事实, 完美的解决了这个看起来不可能实现的目标。

与刚刚说的数学家设计相反,生物用它自身的多样和“混乱” 实现了对真实世界不确定性(分布函数)的计算。这里的思想和“蜂群”“蚁群”算法有些类似, 群体中由目标相同, 但是参数有差异的个体组成, 这个时候, 从群体level得到的信号, 就可以解码出世界本身的不确定性。起初科学家多半把这种群体中个体的区别当作一种噪声, 直到我们从适应真实世界的不确定角度解读。

具体怎么实现的?如下图,我们看到不同的多巴胺细胞, 如同下图a中V, 和delta组成的一对圆圈,如果这些细胞的参数都相同, 就如同图a, 每个细胞都以同样的方法在计算未来奖励的期望。而一旦每个细胞的参数发生变化, 具体体现在加入一个对正向和负向TD误差迭代的不对称性(传统理论是一样的), 这导致了不同的细胞所计算的V函数不同, 因此对TD误差的reverse point也不同(也就是TD误差为正或为负需要的V值)。 

这个不对称性, 翻译成通俗的语言,就是乐观或者悲观, 所谓的乐观, 就是说对正向的TD误差更敏感, 而悲观, 则反过来。一个群体里有乐观的细胞和悲观的细胞组成, 就体现在它们的这种不对称性以及其导致的reverse point的不同,对应同一个奖励事件, 乐观和悲观细胞给出的TD信号是不同的(注意此处的乐观细胞反而更容易给出一个TD误差的负值因为它们本身的期望就更高)

yUryyqe.png!web

最终的结果, 是每个细胞都包含了真实奖励的部分信息, 而整个群体可以同时编码整个奖励的分布函数, 包含峰位数, 方差, 和均值等等信息。这里的具体方法是不同的细胞实质编码了期望的峰位数(由对正负TD误差的不确定性alpha+, alpha-决定), 而把整个群体加在一起, 就可以得到分布函数。

uANRBzj.png!web

这一次,AI理论指导了生物发现, Deepmind根据这个想法测量了真实的多巴胺神经细胞, 也观测到了性质相同的现象。也就是不同细胞对正向和负向TD误差的不确定性, 以及它导致的可观测的信号reversal point的不同。

U3meIbi.png!web

FviInyV.png!web

五 对多巴胺的通俗误读与我们应该做的思考

对多巴胺的理解, 网上充满了各种各样的解读, 大部分人给它的定义是快乐激素,也就是那种可以编码食色性的细胞, 这种细胞疯狂放电,那就是人磕了药或者做着一些特别过瘾的事。 

禁欲主义者通常认为我们需要戒断多巴胺让我们变得更聪明。而纵欲主义者则视其为生活激情的来源。事实上这两种想法都更多迎合了早期研究对多巴胺的理解,而偏离了它的学习本质。 

事实上多巴胺是“学习的神经递质” 而非“欲望的激素” 。 更准确的说, 它和大脑的功能本质-预测编码直接相关。我们的神经系统不停的预测此刻的行为和下一刻奖励的关系, 当这种预测出了错, 就要通过一个神经递质来警告所有做出预测的神经元改变你们的预期, 它就是多巴胺。

而根据这篇Deepmind的Nature论文表明, 不同的细胞对未来的预期不要越一致, 而是相对保持不一致才更好, 细胞也要分为左中右三派, 最后的总体表现才更客观, 更能战胜真实世界的不确定性。

最后说一个题外话,对于刚刚说的禁欲和纵欲问题, 我个人更加支持的是引导欲望。既然多巴胺编码的是超出或不足预期的部分, 当整个世界所有的预期皆为已知, 那么即使我们所拥有的再多也不足以让我们快乐。因此, 若要人生有趣, 最重要的是不停加入新的探索项, 永葆好奇心, 并在探索和发现中建立多巴胺回路, 才可不太快进入一个饱和区间, 这也才是教育的本质之所在。

更多阅读

大脑最小自由能法则与我们对不确定性的态度

自由能最小说的是什么?又该怎么批判性的去看了?


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK