首页 推荐 热点 专题 PHPJavaPythonAndriodIOSC#前端数据库人工智能程序开发架构安全运维资讯微课资源
0
点赞
收藏
分享

微信扫一扫

ChatGPT的Reward具体是如何指导Policy的

佳简诚锄 2023-01-28 阅读 187
人工智能Hadoop大数据


论文《Training language models to follow instructions with human feedback》所述:

ChatGPT的Reward具体是如何指导Policy的_人工智能


用KL-loss如图应该就是计算Reward Model生成的句子和Policy Model生成的句子的差值,然后优化这个差值


举报
0 条评论
佳简诚锄
关注
  • 开发日常记录MCP Server分享:Shopify Dev
  • PHP与HTML完美结合:从基础到进阶的实用技巧
  • 纽约TSX百老汇1800㎡巨幕 | 三思LED硬核科技打造沉浸式娱乐新地标
  • mysql 纵表设计
  • mysql uos
  • python可以登录qq邮箱吗
  • 【汇编语言】标志寄存器(一) —— 标志寄存器中的标志位:ZF、PF、SF、CF、OF 一网打尽
  • 全球光伏激光设备市场展望:2030年预计达到33亿元
  • taro+vue3 + nut-popup微信小程序真机不显示问题
  • jquery 多张图片左右滑动效果