- 地址:
- 海南省海口市
- 邮箱:
- admin@youweb.com
- 电话:
- 0898-08980898
- 传真:
- 1234-0000-5678
morvan zhou教学视频https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-4-DPPO/
Hung-yi Lee课程http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
PPO论文https://arxiv.org/abs/1707.06347
强化学习可以按照方法学习策略来划分成基于值和基于策略两种。而在深度强化学习领域将深度学习与基于值的Q-Learning算法相结合产生了DQN算法,通过经验回放池与目标网络成功的将深度学习算法引入了强化学习算法。其中最具代表性分别是Q-Learning与Policy Gradient算法,将Q-Learning算法与深度学习相结合产生了Deep Q Network,而后又出现了将两种方式的优势结合在一起的更为优秀Actor Critic,DPG, DDPG,A3C,TRPO,PPO等算法。而本文所采用的是目前效果较好的近端策略优化算法PPO。
PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。
重新回顾一下PolicyGradient算法,Policy Gradient不通过误差反向传播,它通过观测信息选出一个行为直接进行反向传播,当然出人意料的是他并没有误差,而是利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。
策略如下图方式定义,详细公式信息接下来会介绍。
PolicyGradient算法原来是On-Policy的,(感谢指正,更正:PPO也是on-policy)。
important sampling不能算是off-policy,PPO里面的 important sampling
采样的过程仍然是在同一个策略生成的样本,并未使用其他策略产生的样本,因此它是on-policy的。而DDPG这种使用其他策略产生的数据来更新另一个策略的方式才是off-policy
- On-Policy:只与相同的环境下进行交互学习
- off-Policy:可以与学习自己环境下的经验也可以获得其他环境下的经验
策略τ的回报期望如下
▽ R = E τ ? p θ ( τ ) [ R ( τ ) ▽ l o g p θ ( τ ) ] ▽R=E_{τ~p_{ heta}(τ)}[R(τ)▽logp_ heta(τ)] ▽R=Eτ?pθ?(τ)?[R(τ)▽logpθ?(τ)]
原来是使用
π
θ
\pi_ heta
πθ?与环境交互,当
θ
heta
θ更新时就对训练数据重新采样,那要变成off-policy根据之前的经验就需要使用另外一个网络来帮助采样,就像DQN里的targetNet,现在目标是使用
π
θ
′
\pi_{ heta'}
πθ′?采样来训练
θ
heta
θ,
θ
′
heta'
θ′被固定所以重新使用采样数据。
上图中所示,PolicyGradient是model-free的所以不知道模型的概率,所以只能通过与真实环境数据的分布P(x)中去采样加和平均求期望。但现在我们为了把它变成offpolicy,就不能直接从P(x)中去直接采样。这时候把期望等价写成
∫
f
(
x
)
p
(
x
)
d
x
\int f(x)p(x)dx
∫f(x)p(x)dx然后引入新的采样分布q(x)进行变换
∫
f
(
x
)
p
(
x
)
q
(
x
)
q
(
x
)
d
x
\int f(x)\frac{p(x)}{q(x)}q(x)dx
∫f(x)q(x)p(x)?q(x)dx,这时候我们发现这和最大熵模型引入隐含变量的套路有点相似,然后就可以把原来x~p的期望改写成x~q的期望。所以最终可以得到
E x ? p [ f ( x ) p ( x ) ] = E x ? q [ f ( x ) p ( x ) q ( x ) ] E_{x~p} [f(x)p(x)]=E_{x\\~q}[f(x)\frac{p(x)}{q(x)}] Ex?p?[f(x)p(x)]=Ex?q?[f(x)q(x)p(x)?]
上述推导就是important sample的技巧。在这个式子中其中的
p
(
x
)
q
(
x
)
\frac{p(x)}{q(x)}
q(x)p(x)?就是important weight。通过这个公式我们也可以想象得到,如果采样的分布p与真实的分布q差得很多,那么肯定会导致两个期望不一致。下图通过举了一个例子来讲解
上图的p(x)与q(x)差异很大左边为负右边为正,当采样次数很少右边采样很多的情况,就会得出与右边为正的错误结果,但是如果在左边也被采样到一个样本时这个这个时候因为
p
(
x
)
q
(
x
)
\frac{p(x)}{q(x)}
q(x)p(x)?作为权重修正就相当于给左边的样本一个很大的权重,就可以将结果修正为负的。所以这就是 important weight的作用。但是我们也能看出来,采样次数要足够多,万一采样次数少只采到了一边那就凉凉了。
所以有了上述的 Important Sampling的技巧我们就可以将原来的on-policy变成off-policy了。
▽
J
(
θ
)
=
E
π
θ
[
R
(
s
,
a
)
▽
l
o
g
π
θ
(
s
,
a
)
]
▽J( heta)=E_{\pi_{ heta}}[R(s,a)▽log\pi_{ heta}(s,a)]
▽J(θ)=Eπθ??[R(s,a)▽logπθ?(s,a)]
▽
J
θ
′
(
θ
)
=
E
π
θ
′
[
π
θ
(
s
,
a
)
π
θ
′
(
s
,
a
)
R
(
s
,
a
)
▽
l
o
g
π
θ
′
(
s
,
a
)
]
▽J^{ heta'}( heta)=E_{\pi_{ heta'}}[\frac{\pi_{ heta}(s,a)}{\pi_{ heta'}(s,a)}R(s,a)▽log\pi_{ heta'}(s,a)]
▽Jθ′(θ)=Eπθ′??[πθ′?(s,a)πθ?(s,a)?R(s,a)▽logπθ′?(s,a)]
上文提到我们不希望 θ heta θ与 θ ′ heta' θ′的差距过大,所以要想办法约束它。KL散度也叫相对熵,可以用来衡量两个分布之间的差异性。所以最直接的办法,就是对目标函数增加一个约束条件让他的KL散度小于 δ \delta δ。这个办法其实就TRPO的思想啦~
J
T
R
P
O
θ
′
(
θ
)
=
E
π
θ
′
[
π
θ
(
s
,
a
)
π
θ
′
(
s
,
a
)
A
θ
′
(
s
,
a
)
]
J_{TRPO}^{ heta'}( heta)=E_{\pi_{ heta'}}[\frac{\pi_{ heta}(s,a)}{\pi_{ heta'}(s,a)}A^{ heta'}(s,a)]
JTRPOθ′?(θ)=Eπθ′??[πθ′?(s,a)πθ?(s,a)?Aθ′(s,a)]
s
.
t
.
K
L
(
θ
,
θ
′
)
<
δ
s.t. KL( heta, heta')<\delta
s.t.KL(θ,θ′)<δ
直接求解TRPO这种带约束的问题是十分复杂的,他与PPO算法的效果差不多,但是PPO将KL散度作为惩罚项,更加容易求解。
J P P O θ ′ ( θ ) = E π θ ′ [ π θ ( s , a ) π θ ′ ( s , a ) A θ ′ ( s , a ) ] ? β K L ( θ , θ ′ ) J_{PPO}^{ heta'}( heta)=E_{\pi_{ heta'}}[\frac{\pi_{ heta}(s,a)}{\pi_{ heta'}(s,a)}A^{ heta'}(s,a)]-βKL( heta, heta') JPPOθ′?(θ)=Eπθ′??[πθ′?(s,a)πθ?(s,a)?Aθ′(s,a)]?βKL(θ,θ′)
另外还有一种PPO2算法效果比PPO要好一些,如下图所示
利用clip函数将其固定在了一定的范围之内,同样也可以起到限制约束
θ
,
θ
′
heta, heta'
θ,θ′的作用。
以上就是PPO算法的推导过程,实现代码可以在OPENAI的github里面找到,在他们的baseline里面有很多深度强化学习算法的代码,供参考使用baseline传送门