0

点赞

收藏

分享

ChatGPT的Reward具体是如何指导Policy的

佳简诚锄 2023-01-28 阅读 187

标签: 人工智能 Hadoop 大数据

论文《Training language models to follow instructions with human feedback》所述：

ChatGPT的Reward具体是如何指导Policy的_人工智能

用KL-loss如图应该就是计算Reward Model生成的句子和Policy Model生成的句子的差值，然后优化这个差值

0 条评论

关注