0

点赞

收藏

分享

强化学习笔记：Q-Learning

kmoon_b426 2022-04-08 阅读 112

标签: 深度学习

#强化学习笔记：Q-Learning

Q-Learning算法的转移规则公式：

$\gamma*\max_{\tilde{a}}\{Q(\tilde{s},\tilde{a})\}$

s,a表示当前的状态和行为， $\tilde{s},\tilde{a}$ 表示s的下一个状态及行为。参数 $\gamma$ 为满足 $0\leq\gamma<1$ 的常数。
公式中 $\gamma$ 趋向于０表示agent主要考虑immediate reward，而 $\gamma$ 趋向于1表示agent将同时考虑future reward。

文章来源（参考博客）：
作者: peghoty
出处: http://blog.csdn.net/peghoty/article/details/9361915

0 条评论

关注