之前在学习 Berkeley 的 CS 294: Deep Reinforcement Learning 课程时,对于逆强化学习 (inverse reinforcement learning IRL) 中的最大熵逆强化学习 (MaxEnt) 有点云里雾里,可能一开始受 Maximum Entropy Inverse Reinforcement Learning 和 Maximum entropy deep inverse reinforcement learning 两篇论文的影响,基于概率图模型,使用了逆最优控制问题 (inverse optimal control IOC) 方法,使得整个算法的推导、求解十分复杂,以至于到后来的 Guided cost learning: Deep inverse optimal control via policy optimization 论文就更是不知道在说什么。
然而 A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models 这篇论文将前面这些方法结合起来并与生成式对抗网络 (generative adversarial networks GAN) 做了对比,比较详细的说明了这些基于 MaxEnt 的 IRL 算法到底在做一件什么事。本文也简单介绍一下这篇论文。
Background
Generative Adversarial Networks
GAN 是一种比较新的生成模型,一般被用来学习一种很难去表示的概率分布,当这种概率模型很容易就能表示时,我们直接用极大似然估计就可以了。
它同时学习生成器 (generator)
Discriminator 的损失函数为:
如果样本来自于真实分布
Generator 的损失函数为:
Energy-Based Models
Energy-based models 与 softmax 有点相似,它将样本
Inverse Reinfocement Learning
IRL 或者说 IOC 的目标就是根据示例行为 (demonstrated behavior) 找出 cost function ,一般假设这些示例来自于在某个未知 cost function 下的接近最优的专家行为。由于 IRL 最早来自于最优控制论,所以习惯于用 cost function 而不是 reward function ,用
Maximum entropy inverse reinforcement learning
MaxEnt IRL 用 Boltzmann distribution 建模了 demonstrations 的分布,energy function 由 cost function
在这个模型下,最优轨迹应该有着最高的似然概率,而专家可以根据一定概率生成次最优轨迹,如果这个生成的轨迹导致 cost function 很大,则这个概率应该指数级地减小。要求得
Guided cost learning
Guided cost learning 提出了一种基于采样的迭代方法来估计
可以看出 guided cost learning 算法既优化 cost function 同时也要优化
对于 partition function
重要性采样的估计方法可能会产生高方差的问题,作者用了一种混合 data 样本与 generated 样本的方法:令
GANs 与 IRL
一个特殊形式的 discriminator
对于一个固定的 generator 和一个一般未知的概率分布
传统的 GAN 算法训练直接输出这个值。当 generator 的概率密度可以被衡量时,我们可以修改一下传统的 GAN ,我们不再去直接估计公式 (1) ,而是去估计
GAN 与 guided cost learning 的等价性
我们将 GAN 与 MaxEnt IRL 的几个公式结合起来再写一遍:
Discriminator 的损失函数为:
MaxEnt IRL 的 log 似然函数为:
我们重新记
接下来作者通过三个等式,说明了 GAN 与 MaxEnt IRL 实际上做了同一件事情,本文不做过多的公式推导,只展示结果。
1. 为 partition function 的估计
我们用
2. 优化 IRL 的目标函数
我们现在根据上一结论的
3. Generator 优化 MaxEnt IRL 的目标函数
结合以上三点,我们就可以把 GAN 看作是一种基于采样的解决 MaxEnt IRL 问题的算法。
总结一下 IRL 里的轨迹
用 GANs 的方法来训练 EBMs
有了以上 GAN 与 IRL 的基础,我们可以直接将 GAN 与 EBM 联系起来。实际上已经有一些论文 Deep directed generative models with energy-based probability estimation、Energy-based generative adversarial network 在尝试用 GAN 的方法解决 EBM 的 partition function 问题。这些方法都是交替地训练 generator 来产生小能量样本
与上文一样,我们可以推导出无偏的 partition function 估计为:
参考
Ziebart, B. D., Maas, A. L., Bagnell, J. A., & Dey, A. K. (2008, July). Maximum Entropy Inverse Reinforcement Learning. In AAAI (Vol. 8, pp. 1433-1438).
Wulfmeier, M., Ondruska, P., & Posner, I. (2015). Maximum entropy deep inverse reinforcement learning. arXiv preprint arXiv:1507.04888.
Finn, C., Levine, S., & Abbeel, P. (2016, June). Guided cost learning: Deep inverse optimal control via policy optimization. In International Conference on Machine Learning (pp. 49-58).
Finn, C., Christiano, P., Abbeel, P., & Levine, S. (2016). A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models. arXiv preprint arXiv:1611.03852.
http://rail.eecs.berkeley.edu/deeprlcourse-fa17/index.html
v1.5.2