0
点赞
收藏
分享

微信扫一扫

Bellman 贝尔曼方程究竟是什么


贝尔曼方程是一种思想,而不是一个具体的公式

贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。

它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要考虑当前的决策衍生产生未来持续性的Reward。

简单地说就是既要考虑当前收益最大化,还需要去关注未来持续的收益。

如在Q-learning中,我们更新Q(s,a)时不仅关注当前收益也关注未来收益,当前收益就是状态变更环境立即反馈的reward,

Bellman 贝尔曼方程究竟是什么_强化学习

​​通俗易懂谈强化学习之Q-Learning算法实战​​ 

工众耗:微程序学堂


举报

相关推荐

0 条评论