全部免费！持续更新！深度强化学习DRL必备资料网盘分享！-CFANZ编程社区

DRL简介

深度强化学习是近期非常热门的技术，它把深度学习的挖掘能力和强化学习的决策能力进行了深度的融合，实现了传统深度学习和传统强化学习所无法解决的问题。

深度强化学习本质上是在模仿人的行为或者选择，去寻找一个人类未知的接近标准答案的答案，或者说，去寻找一个尽可能优质的答案。

在深度强化学习中，一般都是智能体（Agent）和环境（Environment）之间的交互，智能体通过感知环境中的一些信息（即环境的状态State），然后做出对应的动作（Action），环境会根据智能体的动作更新新的状态，并且给智能体反馈（即环境给智能体的奖励，也叫奖赏Reward）。智能体需要不断根据环境给予的新的状态和奖励，去执行后续的动作。在最终，环境会告诉智能体成功、失败并给智能体奖励。

智能体会不断重复上述的过程，争取取得成功并获得尽可能高的奖赏。

全部免费！持续更新！深度强化学习DRL必备资料网盘分享！_深度学习

智能体就是环境中动作的具体的执行者，比如我们游戏中的角色。环境就是智能体能够感知到的范围的上界。比如游戏的全部场景。

智能体在没有到达最后的结束的时候，他一般是不知道自己的动作序列是否是合理的或者最优的。只有等到最后，才可以根据奖赏判断最优动作序列。

比如我们下象棋，我们只知道下棋的规则，但是怎么赢，没有人告诉我们最标准的答案。这需要我们下很多棋，在走每一步棋的时候，一般很少有人告诉我们走这步棋是否正确，只有走到最后，才知道所有的棋步能否取得胜利。

有些时候，一些序列能得到最终解，但是这个序列不一定是最优的序列。序列的优化也是深度强化学习的很重要的一部分。比如有一个游戏，只能往左和往右走。假设最优序列如下：

左左左左左

但是智能体走了如下序列：

左左左左右右右左左左左

为了解决这个问题，最简单的方式就是，每走一步，就给-1的奖励。所以最终情况，走的步数最少的，并且能成功的，获得的奖励最多。

深度强化学习可以解决序列问题，可以解决决策问题，深度强化学习可以帮助我们分析天气、分析基金走势。可以训练一个游戏的“超级玩家”，我们平常玩的很多游戏，比如90后们小时候在游戏机上玩的那些闯关类游戏，如魂斗罗、超级玛丽。比如一些棋牌类游戏，如围棋、象棋。比如一些比较知名的需要比较灵巧控制的手游，如王者荣耀、球球大作战。这些都可以通过训练深度强化学习模型，去打造一个非常厉害的游戏选手。

资料分享

不管你是想做科研、还是想做一些项目练手、还是想了解一些技术，深度强化学习都可以给你提供一个很好的平台。深度强化学习不仅仅是近几年人工智能领域的热门方向之一。也是真正实现人工智能的，目前大家都比较看好的一个方向。

说了这么多，也是希望，如果你对深度强化学习感兴趣，可以一起加入深度强化学习的大家庭，一起学习讨论深度学习的相关知识技术、一起去为深度强化学习的发展，做一些工作。

当然，在此之前，我们需要先入门深度强化学习。所以，这篇文章的目的，除了给大家简单介绍深度强化学习，让大家有个最最最基本的了解之外，更重要的是，要给大家分享一些资料，这些资料包括深度强化学习的一些电子书籍、相关领域的论文、一些经典的代码等等。

全部免费！持续更新！深度强化学习DRL必备资料网盘分享！_强化学习_02