0

点赞

收藏

分享

强化学习—— 多智能体强化学习

荷一居茶生活 2022-04-13 阅读 133

标签: python 算法强化学习人工智能

强化学习—— 多智能体强化学习

1. 多智能体关系分类
2. 专业术语（Terminologies）
3. 多智能体策略学习的收敛问题

1. 多智能体关系分类

1.1 合作关系（Fully Cooperative）

agent的利益一致，合作去获取共同的回报
如工业机器人

1.2 竞争关系（Fully Competitive）

一个agent的收益是另一个agent的损失
如捕食者和猎物

1.3 混合关系（Mixed Cooperative & Competitive）

既有合作，也有竞争
如机器人踢足球

1.4 利己关系（self-interested）

只想让自身受益，不关心别人受益或者损失。
如股票自动交易系统。

2. 专业术语（Terminologies）

2.1 假设agent个数为

$n$

2.2 状态为

$S$

2.3 第i个agent的动作为

$A^i$

2.4 状态转移函数

$p(s'|s,a^1,a^2,...,a^n)=P(S=s,A^1=a^1,A^2=a^2,...,A^n=a^n)$ 下一时刻的动作依赖于所有智能体的动作（相互影响）。

2.5 奖励（Reward）

第i个智能体获得的奖励为： $R^i$
合作关系： $R^1=R^2=...=R^n$
竞争关系： $R^1\propto-R^2$
$R^i依赖于自身的动作A^i,也依赖于其它智能体的动作(A^j)_{i\neq j}$

2.6 回报（Return）

t时刻第i个智能体获得的奖励为： $R_t^i$
第i个智能体的汇报为： $U_t^i = R_t^i+R_{t+1}^i+R_{t+2}^i+R_{t+3}^i+...$
第i个智能体的折扣回报为： $U_t^i = R_t^i+\gamma \cdot R_{t+1}^i+\gamma^2 \cdot R_{t+2}^i+\gamma^3 \cdot R_{t+3}^i+...\\\gamma \in [0,1]$

2.7 策略网络

每个智能体都有自己的策略网络： $\pi(a^i|s;\theta^i)$
在某些场景中策略网络是可以互换的，如自动驾驶中： $\theta^1 = \theta^2=...=\theta^n$
在某些场景中策略网络是不可互换的，如足球比赛中（不同角色有不同作用）： $\theta^i\neq\theta^j$

2.8 回报的随机性

奖励的随机性

$R_t^i依赖于S_t,A_t^1,A_t^2,A_t^3,...,A_t^n,$
$S_t的随机性依赖于状态转移函数P$
$A_t^i的随机性来源于策略网络\pi(\cdot|s_t;\theta^i)$

回报的随机性

$U_t^i=\sum_{k=0}^{\infty}\gamma^{k}R_{t+k}^i$
依赖于所有未来的状态： ${S_t,S_{t+1},...\}$
依赖于未来所有agent的动作： $\{A_t^i,A_{t+1}^i,...\}(for\quad i\quad in \quad range(1,n+1))$

2.9 状态价值函数

第i个智能体的状态价值为： $V^i(s_t;\theta^1,\theta^2,...,\theta^n)=E[U_t^i|S_t=s_t]$ 期望依赖于所有未来的动作和状态，除了t时刻的状态。
$A_t^j\sim \pi(\cdot|s_t;\theta^j)\quad j=1,...,n$
$V^i\sim\{\theta^1,\theta^2,...,\theta^n\}$
一个agent的状态价值依赖于所有agent的策略
如果一个agent的策略改变了，则其它所有智能体的状态价值都会改变。

3. 多智能体策略学习的收敛问题

3.1 单智能体的策略学习

策略网络： $\pi(a|s;\theta)$
状态价值函数： $V(s;\theta)$
目标函数(用于评价策略好坏)： $J(\theta)=E_s[V(s;\theta)]$
策略网络的参数学习方式为最大化目标函数： $max_\theta J(\theta)$
策略网络的收敛条件为目标函数不再增加。

3.2 多智能体策略学习

3.2.1 收敛条件

收敛条件：满足纳什均衡（Nash Equilibrium）

保持其余智能体的策略不变时，仅改变第i个智能体的策略已不能提升其获得的回报。
每个agent都以最优的策略应对其它智能体的策略。
纳什均衡表明策略网络已经收敛，因为每个agent都不会去改变自己的策略，即使改变策略也不会提升自己获得的回报。

3.2.2 使用单智能体策略学习方式进行多智能体策略学习

第i个智能体的策略网络为： $\pi(a^i|s;\theta^i)$
第i个智能体的状态价值函数为： $V(s;\theta^1,\theta^2,...,\theta^n)$
目标函数为： $J(\theta^1,\theta^2,...,\theta^n)=E_s[V(s;\theta^1,\theta^2,...,\theta^n)]$
学习第i个策略网络的参数，通过最大化下列目标函数： $\mathop{max}\limits_{\theta^i}J^i(\theta^1,\theta^2,...,\theta^n)$
一个智能体更新策略，会使得其它智能体的目标函数发生改变，从而导致策略学习永远无法收敛。
假设第i个智能体找到最优策略： $\theta_\star^i=\mathop{argmax}\limits_{\theta^i}J^i(\theta^1,\theta^2,...,\theta^n)$ 其余agent改变自己的策略时，第i个agent的最优策略则已改变。

本文内容为参考B站学习视频书写的笔记！

by CyrusMay 2022 04 11

我们在小孩和大人的转角
盖一座城堡
——————五月天（好好）——————

0 条评论

荷一居茶生活

关注