0
点赞
收藏
分享

微信扫一扫

ChatGPT的Reward具体是如何指导Policy的

佳简诚锄 2023-01-28 阅读 153


论文《Training language models to follow instructions with human feedback》所述:

ChatGPT的Reward具体是如何指导Policy的_人工智能


用KL-loss如图应该就是计算Reward Model生成的句子和Policy Model生成的句子的差值,然后优化这个差值


举报

相关推荐

ChatGPT是如何产生心智的?

0 条评论