贝尔曼方程是一种思想,而不是一个具体的公式
贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。
它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要考虑当前的决策衍生产生未来持续性的Reward。
简单地说就是既要考虑当前收益最大化,还需要去关注未来持续的收益。
如在Q-learning中,我们更新Q(s,a)时不仅关注当前收益也关注未来收益,当前收益就是状态变更环境立即反馈的reward,
通俗易懂谈强化学习之Q-Learning算法实战
工众耗:微程序学堂