佳简诚锄

关注

ChatGPT的Reward具体是如何指导Policy的

佳简诚锄

关注

阅读 182

2023-01-28


论文《Training language models to follow instructions with human feedback》所述:

ChatGPT的Reward具体是如何指导Policy的_人工智能


用KL-loss如图应该就是计算Reward Model生成的句子和Policy Model生成的句子的差值,然后优化这个差值


相关推荐

梦想家们

ChatGPT的Reward模块的可能替代方案

梦想家们 57 0 0

seuleyang

ChatGPT是如何产生心智的?

seuleyang 9 0 0

生活记录馆

聊聊ChatGPT是如何组织对话的

生活记录馆 84 0 0

沉浸在自己的世界里

什么是 HTTP 响应字段里的 Referrer Policy

沉浸在自己的世界里 34 0 0

山竹山竹px

ChatGPT到底是如何运作?

山竹山竹px 36 0 0

J简文

ChatGPT 是如何产生心智的? | 京东云技术团队

J简文 27 0 0

爱做梦的老巫婆

7分钟了解ChatGPT是如何运作的

爱做梦的老巫婆 23 0 0

路西法阁下

如何实现Docker快速搭建ChatGPT的具体操作步骤

路西法阁下 70 0 0

TiaNa_na

ChatGPT指导:利用ChatGPT撰写高质量学术论文的技巧

TiaNa_na 17 0 0

乱世小白

【ChatGPT】如何限定 ChatGPT 的回答范围

乱世小白 11 0 0

精彩评论(0)

0 0 举报