【强化学习】简介

简介

强化学习对应一个四元组<X,A,P,R><X,A,P,R>,
其中,

  • X是环境状态集
  • A是机器的动作集
  • P:X×A×XRP:X\times A\times X \to R指定了状态转移概率
  • R:X×A×XRR:X\times A\times X \to R指定了奖赏

K-摇臂赌博机问题

探索与利用是矛盾的,有些算法来折中这个矛盾

epsilon-贪心法

每次以ϵ\epsilon概率去探索其他摇臂,以1ϵ1-\epsilon概率去摇当前最好的摇臂。
ϵ\epsilon可以随着次数而减少。

softmax法

选择概率这样计算: P(k)=exp(Qk)kexp(Qk)P(k)=\dfrac{\exp(Q_k)}{\sum\limits_k \exp(Q_k)}

参考资料

周志华《机器学习》



您的支持将鼓励我继续创作!