宁静的猫

关注

pytorch的reinforce算法 官方文档

宁静的猫

关注

阅读 77

2022-07-27


​​http://pytorch.org/docs/0.3.0/distributions.html​​

probs = policy_network(state)
m = Categorical(probs)
action = m.sample() # 抽样一个action
next_state, reward = env.step(action) # 得到一个reward
loss = -m.log_prob(action) * reward
loss.backward()


相关推荐

西曲风

Pytorch官方文档学习笔记 —— 5. Optimization

西曲风 63 0 0

雷亚荣

REINFORCE及进阶算法讲解笔记

雷亚荣 44 0 0

小猪肥

IRGAN里REINFORCE算法 的推导过程 的理解方式

小猪肥 31 0 0

洒在心头的阳光

PYTORCH 官方文档,开发文档,Python编程 人工智能 深度机器学习

洒在心头的阳光 24 0 0

杰克逊爱学习

SDWebImage 官方文档

杰克逊爱学习 118 0 0

沉浸在自己的世界里

redisson官方文档

沉浸在自己的世界里 80 0 0

佛贝鲁先生

STRUTS官方文档

佛贝鲁先生 52 0 0

柠檬果然酸

Android官方文档

柠檬果然酸 187 0 0

穆风1818

ORACLE 官方文档

穆风1818 164 0 0

紫荆峰

Django的官方文档翻译

紫荆峰 116 0 0

精彩评论(0)

0 0 举报