从 Supervised Learning 到 Policy Gradients-CFANZ编程社区

从 Supervised Learning 到 Policy Gradients

Mezereon

阅读 45

2023-03-25

http://karpathy.github.io/2016/05/31/rl/ 的翻译

从 Supervised Learning 到 Policy Gradients_强化学习

如图，对于有监督学习，深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有labeled ground-truth-label = 0

然后，对类似image 提升predict-label=0 的概率，降低predict-label=1的概率

从 Supervised Learning 到 Policy Gradients_深度学习_02

如图，对于强化学习的 Policy Gradients，深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有reward / ground-truth-label = 0

然后，对类似image 提升predict-label=0 的概率，降低predict-label=1的概率

相关推荐
爱我中华8898
 强化学习--Policy Gradients
爱我中华8898 121 0 0
河南妞
 强化学习系列 5 : Policy Gradients
河南妞 73 0 0
SDKB英文
 Weakly Supervised Contrastive Learning 论文阅读
SDKB英文 79 0 0
盖码范
 Temporal Ensembling for Semi-Supervised Learning
盖码范 64 0 0
捡历史的小木板
 图像增强与改进：从 Histogram of Oriented Gradients 到 GANs
捡历史的小木板 11 0 0
小时候是个乖乖
 HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning
小时候是个乖乖 66 0 0
十里一走马
 SelFlow: Self-Supervised Learning of Optical Flow
十里一走马 63 0 0
开源分享
 【Deep Learning】Self-Supervised Learning：自监督学习
开源分享 65 0 0
书呆鱼
 论文阅读-Policy Optimization for Continuous Reinforcement Learning
书呆鱼 10 0 0
惠特曼
 论文阅读《Self-supervised Graph Learning for Recommendation》
惠特曼 97 0 0

精彩评论（0）