ChatGPT的Reward具体是如何指导Policy的-CFANZ编程社区

ChatGPT的Reward具体是如何指导Policy的

佳简诚锄

阅读 187

2023-01-28

论文《Training language models to follow instructions with human feedback》所述：

ChatGPT的Reward具体是如何指导Policy的_人工智能

用KL-loss如图应该就是计算Reward Model生成的句子和Policy Model生成的句子的差值，然后优化这个差值

相关推荐
梦想家们
 ChatGPT的Reward模块的可能替代方案
梦想家们 69 0 0
seuleyang
 ChatGPT是如何产生心智的？
seuleyang 11 0 0
生活记录馆
 聊聊ChatGPT是如何组织对话的
生活记录馆 86 0 0
沉浸在自己的世界里
 什么是 HTTP 响应字段里的 Referrer Policy
沉浸在自己的世界里 34 0 0
山竹山竹px
 ChatGPT到底是如何运作？
山竹山竹px 37 0 0
J简文
 ChatGPT 是如何产生心智的？ | 京东云技术团队
J简文 31 0 0
爱做梦的老巫婆
 7分钟了解ChatGPT是如何运作的
爱做梦的老巫婆 29 0 0
TiaNa_na
 ChatGPT指导：利用ChatGPT撰写高质量学术论文的技巧
TiaNa_na 24 0 0
路西法阁下
 如何实现Docker快速搭建ChatGPT的具体操作步骤
路西法阁下 73 0 0
乱世小白
 【ChatGPT】如何限定 ChatGPT 的回答范围
乱世小白 16 0 0

精彩评论（0）