1 迁移学习
1.1 迁移学习背景
机器学习作为人工智能的一大类重要方法,在过去几十年尤其是最近十年中,获得了飞速发展。机器学习使机器自主地从数据中学习知识并应用于新问题的求解成为了可能。而迁移学习作为机器学习的一个重要分支,侧重于将已经学习过的知识迁移应用于新的问题中,以增强解决新问题的能力、提高解决新问题的速度。
迁移学习可以利用数据、任务或模型之间的相似性,将在旧领域学习过的模型和知识应用于新的领域。
1.2 迁移学习必要性
为什么要用迁移学习?
1.3 迁移学习研究领域和方法分类
1.4 迁移学习问题定义
在迁移学习中,被迁移的领域、含有知识的领域通常被称为源领域(Sourcedomain,源域),而待学习的领域,则通常被称为目标领域(Target domain,目标域)。源域就是有知识、有大量数据标注的领域,是我们要迁移的对象;目标域就是我们最终要赋予知识、赋予标注的对象。知识从源域传递到目标域,就完成了迁移。
1.5 迁移学习三个基本问题
1、何处迁移
2、何时迁移
3、如何迁移
1.6 负迁移
负迁移指的是在源域上学习到的知识,对于目标域上的学习产生负面作用。也就是说,使用迁移学习比不用迁移学习取得的效果更差。
产生负迁移的原因主要有:
• 数据问题:源域和目标域压根不相似
• 方法问题:源域和目标域是相似的,但由于迁移学习方法不够好,导致迁移失败。
2 强化学习中的迁移学习
强化学习是智能体与未知环境进行交互时运行的一种机器学习范式。在强化学习中,智能体可以通过马尔可夫决策过程( Markov Decision Process , MDP )建模,在该过程中,智能体依次采取动作并获得相应的奖励,该奖励可以延迟。在这种有限的奖励信号的指导下,强化学习旨在获得一个决定如何在未来不同情况下采取动作的策略。通过这一过程,选定一个最优策略,可以最大化累计收益。
一个通用的智能体应该支持快速高效地解决强化学习问题,即使面对一个新的领域其中用于从零开始训练智能体的样本并不多,它也能有效地学习解决该问题。在这种情况下,人们很自然地通过迁移学习来利用强化学习领域中的相关知识。迁移学习在有监督学习和无监督学习环境中都得到了广泛的研究。随着对强化学习的关注的快速増长,强化学习中的迁移学习也越来越受到人们的关注。强化学习问题之间的知识迁移无论是从经验效果上还是从理论上都被证明是有效的。
为了介绍迁移学习设置,我们首先定义了“域”的概念和一个 MDP M 的“任务”。一个 MDP M 的域,即D M ,包括状态空间 S 和动作空间 A 。在一个连续 MDP 中,域主要表示连续状态变量和动作空间。如果两个 MDP 属于不同的域,则状态空间或动作空间是不同的。具有不同域的 MDP 的迁移学习依赖于源域和目标域之间的人工设计的或学习到的域间映射。
给定 MDP M ,任务描述了 MDP 除状态空间与动作空间外的组成部分,包括转移函数 PM 和奖励函数 RM 。具有不同任务的 MDP 具有独特的动态或奖励函数。 PM 和 RM 对于智能体来说可能是未知的,需要进行利用和探索。
迁移强化学习分类
1.任务间迁移学习
1)基于样本的迁移
2)基于特征的迁移
3)基于模型的迁移
2.域间迁移学习
1)基于样本的迁移
2)基于特征的迁移
3)基于模型的迁移