0
点赞
收藏
分享

微信扫一扫

全部免费!持续更新!深度强化学习DRL必备资料网盘分享!


1

DRL简介



深度强化学习是近期非常热门的技术,它把深度学习的挖掘能力和强化学习的决策能力进行了深度的融合,实现了传统深度学习和传统强化学习所无法解决的问题。


深度强化学习本质上是在模仿人的行为或者选择,去寻找一个人类未知的接近标准答案的答案,或者说,去寻找一个尽可能优质的答案。


在深度强化学习中,一般都是智能体(Agent)和环境(Environment)之间的交互,智能体通过感知环境中的一些信息(即环境的状态State),然后做出对应的动作(Action),环境会根据智能体的动作更新新的状态,并且给智能体反馈(即环境给智能体的奖励,也叫奖赏Reward)。智能体需要不断根据环境给予的新的状态和奖励,去执行后续的动作。在最终,环境会告诉智能体成功、失败并给智能体奖励。


智能体会不断重复上述的过程,争取取得成功并获得尽可能高的奖赏。


全部免费!持续更新!深度强化学习DRL必备资料网盘分享!_深度学习


智能体就是环境中动作的具体的执行者,比如我们游戏中的角色。环境就是智能体能够感知到的范围的上界。比如游戏的全部场景。


智能体在没有到达最后的结束的时候,他一般是不知道自己的动作序列是否是合理的或者最优的。只有等到最后,才可以根据奖赏判断最优动作序列。


比如我们下象棋,我们只知道下棋的规则,但是怎么赢,没有人告诉我们最标准的答案。这需要我们下很多棋,在走每一步棋的时候,一般很少有人告诉我们走这步棋是否正确,只有走到最后,才知道所有的棋步能否取得胜利。


有些时候,一些序列能得到最终解,但是这个序列不一定是最优的序列。序列的优化也是深度强化学习的很重要的一部分。比如有一个游戏,只能往左和往右走。假设最优序列如下:


左左左左左


但是智能体走了如下序列:

左左左左右右右左左左左


为了解决这个问题,最简单的方式就是,每走一步,就给-1的奖励。所以最终情况,走的步数最少的,并且能成功的,获得的奖励最多。


深度强化学习可以解决序列问题,可以解决决策问题,深度强化学习可以帮助我们分析天气、分析基金走势。可以训练一个游戏的“超级玩家”,我们平常玩的很多游戏,比如90后们小时候在游戏机上玩的那些闯关类游戏,如魂斗罗、超级玛丽。比如一些棋牌类游戏,如围棋、象棋。比如一些比较知名的需要比较灵巧控制的手游,如王者荣耀、球球大作战。这些都可以通过训练深度强化学习模型,去打造一个非常厉害的游戏选手。


2

资料分享


不管你是想做科研、还是想做一些项目练手、还是想了解一些技术,深度强化学习都可以给你提供一个很好的平台。深度强化学习不仅仅是近几年人工智能领域的热门方向之一。也是真正实现人工智能的,目前大家都比较看好的一个方向。


说了这么多,也是希望,如果你对深度强化学习感兴趣,可以一起加入深度强化学习的大家庭,一起学习讨论深度学习的相关知识技术、一起去为深度强化学习的发展,做一些工作。


当然,在此之前,我们需要先入门深度强化学习。所以,这篇文章的目的,除了给大家简单介绍深度强化学习,让大家有个最最最基本的了解之外,更重要的是,要给大家分享一些资料,这些资料包括深度强化学习的一些电子书籍、相关领域的论文、一些经典的代码等等。




全部免费!持续更新!深度强化学习DRL必备资料网盘分享!_强化学习_02

长按二维码关注



举报

相关推荐

伯克利强化学习资料

0 条评论