从 Supervised Learning 到 Policy Gradients

Mezereon

关注

阅读 43

2023-03-25


http://karpathy.github.io/2016/05/31/rl/ 的翻译

从 Supervised Learning 到 Policy Gradients_强化学习


如图,对于有监督学习,深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有labeled ground-truth-label = 0

然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率

从 Supervised Learning 到 Policy Gradients_深度学习_02


如图,对于强化学习的 Policy Gradients,深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有reward / ground-truth-label = 0

然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率


精彩评论(0)

0 0 举报