0

点赞

收藏

分享

Bellman 贝尔曼方程究竟是什么

卿卿如梦 2022-05-11 阅读 119

标签: 算法算法实战强化学习微程序编程语言

贝尔曼方程是一种思想，而不是一个具体的公式

贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。

它的核心思想是：当我们在特定时间点和状态下去考虑下一步的决策，我们不仅仅要关注当前决策立即产生的Reward，同时也要考虑当前的决策衍生产生未来持续性的Reward。

简单地说就是既要考虑当前收益最大化，还需要去关注未来持续的收益。

如在Q-learning中，我们更新Q(s,a)时不仅关注当前收益也关注未来收益，当前收益就是状态变更环境立即反馈的reward，

Bellman 贝尔曼方程究竟是什么_强化学习

通俗易懂谈强化学习之Q-Learning算法实战

工众耗：微程序学堂

0 条评论

关注