0
点赞
收藏
分享

微信扫一扫

TD Target Algorithms


TD Target Algorithms

1.Sarsa

1.1 名称由来

TD Target Algorithms_梯度下降

TD Target Algorithms_机器学习_02

我们容易求出折扣回报

TD Target Algorithms_梯度下降_04

可以进行等式变形。

TD Target Algorithms_神经网络_05

因为无法直接求出期望,考虑用Monte Carlo近似。

1.2表格形式

TD Target Algorithms_人工智能_06

假设states和actions的个数已知,那么可以建立二维table,不断更新table。

TD Target Algorithms_梯度下降_07

通过observe 一个状态转移,通过策略函数计算,然后查表计算TD target。

TD Target Algorithms_神经网络_10

然后计算TD error,更新表中的

1.3 神经网络形式

TD Target Algorithms_机器学习_12

TD Target Algorithms_梯度下降_13

计算TD target 和 TD error,梯度下降更新训练参数

1.4 Summary

TD Target Algorithms_人工智能_15

2.Q-learning

2.1 与Sarsa的区别

TD Target Algorithms_人工智能_16

TD Target Algorithms_二维_17

TD Target Algorithms_梯度下降_18


TD Target Algorithms_人工智能_19

等式变形可以得到上式。

TD Target Algorithms_人工智能_20

采用Monte Carlo 近似

2.2 Table形式

TD Target Algorithms_人工智能_22


TD Target Algorithms_梯度下降_23

2.3 DQN形式

TD Target Algorithms_机器学习_24


TD Target Algorithms_机器学习_25

2.4 Summary

TD Target Algorithms_二维_26

3.Multi Step TD Target

TD Target Algorithms_机器学习_27

TD Target Algorithms_二维_28

TD Target Algorithms_神经网络_29

容易得到的变形式。

TD Target Algorithms_神经网络_31

Sarsa本质是Multi Step TD 的特殊形式

TD Target Algorithms_梯度下降_33

Q-learning 同理。

TD Target Algorithms_神经网络_34

因为Multi Step TD Target 更接近真实值,因为更真实。所以效果会比One-Step 要好,但是需要考虑性能问题(?)


举报

相关推荐

0 条评论