4

【强化学习】简介

 3 years ago
source link: https://www.guofei.site/2019/02/17/reinforcement_learning.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

【强化学习】简介

2019年02月17日

Author: Guofei

文章归类: 3-3-图模型 ,文章编号: 350


版权声明:本文作者是郭飞。转载随意,但需要标明原文链接,并通知本人
原文链接:https://www.guofei.site/2019/02/17/reinforcement_learning.html

Edit

简介

强化学习对应一个四元组<X,A,P,R><X,A,P,R>,
其中,

  • X是环境状态集
  • A是机器的动作集
  • P:X×A×X→RP:X×A×X→R指定了状态转移概率
  • R:X×A×X→RR:X×A×X→R指定了奖赏

K-摇臂赌博机问题

探索与利用是矛盾的,有些算法来折中这个矛盾

epsilon-贪心法

每次以ϵϵ概率去探索其他摇臂,以1−ϵ1−ϵ概率去摇当前最好的摇臂。
ϵϵ可以随着次数而减少。

softmax法

选择概率这样计算: P(k)=exp(Qk)∑kexp(Qk)P(k)=exp⁡(Qk)∑kexp⁡(Qk)

参考资料

周志华《机器学习》


您的支持将鼓励我继续创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK