pytorch的reinforce算法官方文档-CFANZ编程社区

pytorch的reinforce算法官方文档

宁静的猫

阅读 81

2022-07-27

http://pytorch.org/docs/0.3.0/distributions.html

probs = policy_network(state)
m = Categorical(probs)
action = m.sample() # 抽样一个action
next_state, reward = env.step(action) # 得到一个reward
loss = -m.log_prob(action) * reward
loss.backward()

相关推荐
西曲风
 Pytorch官方文档学习笔记 —— 5. Optimization
西曲风 79 0 0
雷亚荣
 REINFORCE及进阶算法讲解笔记
雷亚荣 52 0 0
小猪肥
 IRGAN里REINFORCE算法 的推导过程 的理解方式
小猪肥 31 0 0
洒在心头的阳光
 PYTORCH 官方文档，开发文档，Python编程 人工智能 深度机器学习
洒在心头的阳光 30 0 0
紫荆峰
 Django的官方文档翻译
紫荆峰 120 0 0
杰克逊爱学习
 SDWebImage 官方文档
杰克逊爱学习 119 0 0
沉浸在自己的世界里
 redisson官方文档
沉浸在自己的世界里 80 0 0
佛贝鲁先生
 STRUTS官方文档
佛贝鲁先生 55 0 0
穆风1818
 ORACLE 官方文档
穆风1818 166 0 0
柠檬果然酸
 Android官方文档
柠檬果然酸 198 0 0

精彩评论（0）