Fisher's Blog

强化学习文章阅读顺序

发表于 2018-05-29 更新于 2018-07-21 分类于 Reinforcement Learning ， Course by David Silver 阅读次数： Valine：

Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation

发表于 2021-09-30 更新于 2021-10-03 分类于 Reinforcement Learning 阅读次数： Valine：

本文主要聚焦于 transformer 模型样本利用高（收敛所需的 step 更少），但是训练速度慢（每个 step 执行的时间长），LSTM 样本利用率低，但是训练速度快的特点，将 transformer 模型蒸馏到 LSTM 中，兼顾样本利用率与训练速度。

阅读全文 »

论文速读

发表于 2021-09-16 更新于 2021-10-03 阅读次数： Valine：

CAT-SAC: Soft Actor-Critic with Curiosity-Aware Entropy Temperature, ICRL 2021

Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation, arXiv:2107.00644 [cs]

Self-Supervised Policy Adaptation during Deployment, ICLR 2021

阅读全文 »

Learning Invariant Representations For Reinforcement Learning Without Reconstruction

发表于 2021-08-08 更新于 2021-10-03 阅读次数： Valine：

本文的基本思想是要通过表征学习，将图像的观测输入映射为向量化状态，再交由强化学习训练。但该表征学习不需要额外的领域知识，也不是 reconstruction 重建式的表征，它是通过衡量两个状态之间的 bisimulation metrics 来学习到一种不包含无关信息、对任务没有任何帮助的表征。

阅读全文 »

Decoupling Value and Policy for Generalization in Reinforcement Learning

发表于 2021-08-05 更新于 2021-08-06 阅读次数： Valine：

本文主要针对强化学习中的泛化问题，提出了要分离价值网络与策略网络，来解决一个共享的表征导致的过拟合表征问题和价值函数估计不准确的问题，同时利用对抗网络，来鼓励学习一种与任务无关的表征，从这两点提高强化学习的泛化性。

阅读全文 »

SUNRISE-A-Simple-Unified-Framework-for-Ensemble-Learning-in-Deep-Reinforcement-Learning

发表于 2020-10-29 更新于 2020-10-31 分类于 Reinforcement Learning 阅读次数： Valine：

为了解决无模型强化学习中稳定优化非线性值函数估计、避免 Q-learning 中由于 target Q 引起的偏差传递及更有效的探索，SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning 这篇论文结合了三种方法：1. 随机初始化一系列不同的智能体；2. 带权重的 Bellman backups；3. 在推断阶段使用上置信来选取动作。主要创新在第一点方法上，相当于是 TD3 算法的扩展。

阅读全文 »

Adapting Auxiliary Losses Using Gradient Similarity & Adaptive Auxiliary Task Weighting for Reinforcement Learning

发表于 2020-10-13 更新于 2020-10-20 分类于 Reinforcement Learning 阅读次数： Valine：

在强化学习中，一直存在数据利用率低的问题，尤其是在观测值是高维图像的情况下。如果引入一些额外的辅助任务，将这些任务的知识迁移到强化学习主任务中是一个可以提高数据利用率的方法，同时也能帮助提高强化学习的基础表征，但如何将这些辅助任务进行融合是一个大问题，因为不确定这些辅助任务是否真的在帮助主任务，也不知道它们何时会对主任务的训练产生反作用。

Adapting Auxiliary Losses Using Gradient Similarity & Adaptive Auxiliary Task 主要利用各任务梯度之间的余弦相似度作为权重来判断辅助任务是否在帮助降低主任务的损失。Adaptive Auxiliary Task Weighting for Reinforcement Learning 则提出了一种在线学习的算法，主要基于辅助任务应该从长远来看提供一种帮助降低主任务损失的梯度方向。两篇论文都是想要动态调节辅助任务损失的权重来达到融合辅助任务的作用。

阅读全文 »

Kubernetes GPU pid 转 Pod

发表于 2020-09-21 更新于 2020-09-22 阅读次数： Valine：

本文主要说明在 Kubesphere 自动化生成的 Kubernetes 中，如何监控 GPU ，如何获取每个节点上使用 GPU 的进程信息并将其转换为 Kubernetes 中的 Pod 信息。所有信息数据都由 Kubesphere 生成的 prometheus 进行抓取。

阅读全文 »

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

发表于 2020-07-28 更新于 2020-07-31 分类于 Reinforcement Learning 阅读次数： Valine：

Evolution Strategies as a Scalable Alternative to Reinforcement Learning 将 natural evolution strategies (NES) 替代深度强化学习，通过简单标量数据传递，就可以利用分布式集群的多 CPU 性能，快速扩展训练规模、快速训练智能体。

阅读全文 »

Never Give Up: Learning Directed Exploration Strategies

发表于 2020-06-09 更新于 2020-06-12 分类于 Reinforcement Learning 阅读次数： Valine：

Never Give Up: Learning Directed Exploration Strategies 是 DeepMind 在 ICLR 2020 上发表的一篇论文，主要解决探索与利用问题。这篇论文可以看作是三篇论文的结合：

Curiosity-driven Exploration by Self-supervised Prediction
Neural Episodic Control
Exploration by Random Network Distillation

也是使用内在奖励 (intrinsic reward) 机制，与外部奖励 (external reward) 合起来作为奖励值进行强化学习的训练。

阅读全文 »