代码 https://github.com/openai/lm-human-preferences
在train_policy.py文件
看出 有一个ref_policy
作为ground-truth
在train_reward.py文件
看出 可以同时用于reward_model
自身的训练 和 用reward_model
对ref_policy
打分
论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读
阅读 88
2023-02-04
看出 有一个ref_policy
作为ground-truth
看出 可以同时用于reward_model
自身的训练 和 用reward_model
对ref_policy
打分
相关推荐
精彩评论(0)