TD Target Algorithms
1.Sarsa
1.1 名称由来


我们容易求出折扣回报

可以进行等式变形。

因为无法直接求出期望,考虑用Monte Carlo近似。
1.2表格形式

假设states和actions的个数已知,那么可以建立二维table,不断更新table。

通过observe 一个状态转移,通过策略函数计算,然后查表
计算TD target。

然后计算TD error,更新表中的
1.3 神经网络形式


计算TD target 和 TD error,梯度下降更新训练参数。
1.4 Summary

2.Q-learning
2.1 与Sarsa的区别




等式变形可以得到上式。

采用Monte Carlo 近似
2.2 Table形式


2.3 DQN形式


2.4 Summary

3.Multi Step TD Target



容易得到的变形式。

Sarsa本质是Multi Step TD 的特殊形式。

Q-learning 同理。

因为Multi Step TD Target 更接近真实值,因为更真实。所以效果会比One-Step 要好,但是需要考虑性能问题(?)










