0

点赞

收藏

分享

Loss is its own Reward: Self-Supervision for Reinforcement Learning

夕颜合欢落 2022-07-18 阅读 79

标签: github 编程语言

作者用action, reward, state等当做lalbel，进行有监督训练。

黄世宇/Shiyu Huang's Personal Page：https://huangshiyu13.github.io/

0 条评论

夕颜合欢落

关注