论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读-CFANZ编程社区

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读

大柚子top

阅读 88

2023-02-04

代码 https://github.com/openai/lm-human-preferences

在train_policy.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习

看出有一个ref_policy作为ground-truth

在train_reward.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习_02

看出可以同时用于reward_model自身的训练和用reward_model对ref_policy打分

相关推荐
西特张
 Proximal Policy Optimization(PPO)算法实现gym连续动作空间任务Pendulum-v0（pytorch）
西特张 60 0 0
Fifi的天马行空
 基于近端策略优化的Proximal Policy Optimization（PPO）的无人机姿态控制系统的研究——简化版
Fifi的天马行空 59 0 0
书呆鱼
 论文阅读-Policy Optimization for Continuous Reinforcement Learning
书呆鱼 6 0 0
梦想家们
 强化学习从基础到进阶-常见问题和面试必知必答[8]：近端策略优化（proximal policy optimization，PPO）算法
梦想家们 76 0 0
开源分享
 自动数据增强论文及算法解读（附代码）
开源分享 55 0 0
全栈学习笔记
 BERT论文解读及实现（一）
全栈学习笔记 57 0 0
米小格儿
 瞪羚优化算法Gazelle optimization algorithm附matlab代码
米小格儿 110 0 0
40dba2f2a596
 MixFormer（论文解读与代码讲解）1
40dba2f2a596 133 0 0
ZMXQQ233
 TextCNN代码解读及实战
ZMXQQ233 63 0 0
老榆
 进化算法中的遗传算法（Genetic Algorithms）
老榆 38 0 0

精彩评论（0）