Fisher's Blog

Sein heißt Werden
Leben heißt Lernen

0%

卡耐基梅隆大学、加利福尼亚大学伯克利分校和 Google Brain 尝试了一种新的 Meta Learning 方法: Diversity is all you need: Learning skills without a reward function ,它能让智能体在没有外部奖励的情况下,通过最大熵策略来最大化一个信息论里的目标函数,以此学习到有用的技能 (skills) 。在一系列机器人模拟的任务中,智能体可以在无监督的情况下学习到各种技能,比如行走、跳。

阅读全文 »

无模型的深度强化学习 (model-free deep reinforcement learning) 算法尽管非常多,效果也不错,但由于异策略采样与神经网络这种高维非线性函数近似的结合,使得 DRL 一直会有两个非常大的问题:采样复杂度大、对超参数非常敏感。在 Soft Actor-Critic Algorithms and Applications 论文中,伯克利与 Google Brain 联合提出了 Soft Actor-Critic,一种基于最大熵强化学习框架的异策略 actor-critic 算法。SAC 非常的稳定,可以在不同初始权重的情况下得到取得相同的性能。SAC 有三个显著的特点:

  1. 策略与值函数分离的 actor-critic 框架
  2. 异策略采样可以更有效地复用历史采集到的数据
  3. 熵的最大化可以让算法更稳定,同时还能鼓励探索,找到多个都是最优的 near-optimal 行为。

最大熵强化学习可以参考 Reinforcement Learning with Deep Energy-Based PoliciesSoft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 实际上最先提出了 SAC 算法,但本篇论文在此基础上做了一定的修改,尤其是改进了对 temperature hyperparmeter 敏感的问题。完整代码可见 https://github.com/BlueFisher/RL-SAC-with-Unity.

阅读全文 »

DeepMind 在 ICLR 上发表了 Distributed Prioritized Experience Replay ,可以让强化学习算法更有效地利用大规模数据。文章的思想很简单,算法将强化学习分为行为产生器 actor 和学习器 learner ,每个 actor 独立的与环境进行交互,但行为根据一个共享的网络生成,然后将累积的经验存在共享的经验池 experience replay memory 中;learner 从经验池中采样经验并进行学习,然后更新共享的神经网络参数。整个架构建立在 prioritized experience replay 的基础上。

阅读全文 »

许多连续行为空间的任务往往都是有边界的行为空间。在 policy gradient 中,如果策略的行为输出超出了边界的话,会在真正做决策之前将行为进行截断 (clip) ,使它控制在边界中,但在策略更新的过程中,其实并不知道策略的输出被截断了。在论文 Clipped Action Policy Gradient 中,作者提出了一种截断行为并且无偏的能减小方差的方法,称之为 clipped action policy gradient (CAPG) 。

阅读全文 »

Reinforcement learning with deep energy-based policies 论文提出了一种能在连续状态行为空间下学习基于能量 (energy-based) 的方法,并且将这种方法运用在最大熵策略上,提出了 soft Q-learning 算法。该算法可以增加智能体的探索,并且可以在不同任务之间进行知识迁移。

阅读全文 »

之前在学习 Berkeley 的 CS 294: Deep Reinforcement Learning 课程时,对于逆强化学习 (inverse reinforcement learning IRL) 中的最大熵逆强化学习 (MaxEnt) 有点云里雾里,可能一开始受 Maximum Entropy Inverse Reinforcement LearningMaximum entropy deep inverse reinforcement learning 两篇论文的影响,基于概率图模型,使用了逆最优控制问题 (inverse optimal control IOC) 方法,使得整个算法的推导、求解十分复杂,以至于到后来的 Guided cost learning: Deep inverse optimal control via policy optimization 论文就更是不知道在说什么。

然而 A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models 这篇论文将前面这些方法结合起来并与生成式对抗网络 (generative adversarial networks GAN) 做了对比,比较详细的说明了这些基于 MaxEnt 的 IRL 算法到底在做一件什么事。本文也简单介绍一下这篇论文。

阅读全文 »