- 马尔可夫决策过程(MDP)定义整理
- 基于模型的动态规划 Planning by Dynamic Programming
- 无模型预测 Model-Free Predication
- 无模型控制 Model-Free Control
- 值函数近似 Value Function Approximation
- 策略梯度 Policy Gradient
- Actor-Critic Softmax & Gaussian Policy 代码实现
- Deterministic Policy Gradient
- Deep Deterministic Policy Gradient
- DDPG 代码实现
- Deep Reinforcement Learning In Parameterized Action Space
- Asynchronous Methods for Deep Reinforcement Learning
- A3C 代码实现
- Trust Region Policy Optimization
- High-Dimensional Continuous Control Using Generalized Advantage Estimation
- Proximal Policy Optimization Algorithms
- Proximal Policy Optimization 代码实现
- 整合学习与规划 Integrating Learning and Planning
Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation
本文主要聚焦于 transformer 模型样本利用高(收敛所需的 step 更少),但是训练速度慢 (每个 step 执行的时间长),LSTM 样本利用率低,但是训练速度快的特点,将 transformer 模型蒸馏到 LSTM 中,兼顾样本利用率与训练速度。
论文速读
CAT-SAC: Soft Actor-Critic with Curiosity-Aware Entropy Temperature, ICRL 2021
Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation, arXiv:2107.00644 [cs]
Self-Supervised Policy Adaptation during Deployment, ICLR 2021
Learning Invariant Representations For Reinforcement Learning Without Reconstruction
本文的基本思想是要通过表征学习,将图像的观测输入映射为向量化状态,再交由强化学习训练。但该表征学习不需要额外的领域知识,也不是 reconstruction 重建式的表征,它是通过衡量两个状态之间的 bisimulation metrics 来学习到一种不包含无关信息、对任务没有任何帮助的表征。
Decoupling Value and Policy for Generalization in Reinforcement Learning
本文主要针对强化学习中的泛化问题,提出了要分离价值网络与策略网络,来解决一个共享的表征导致的过拟合表征问题和价值函数估计不准确的问题,同时利用对抗网络,来鼓励学习一种与任务无关的表征,从这两点提高强化学习的泛化性。
SUNRISE-A-Simple-Unified-Framework-for-Ensemble-Learning-in-Deep-Reinforcement-Learning
为了解决无模型强化学习中稳定优化非线性值函数估计、避免 Q-learning 中由于 target Q 引起的偏差传递及更有效的探索,SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning 这篇论文结合了三种方法:1. 随机初始化一系列不同的智能体;2. 带权重的 Bellman backups;3. 在推断阶段使用上置信来选取动作。主要创新在第一点方法上,相当于是 TD3 算法的扩展。
Adapting Auxiliary Losses Using Gradient Similarity & Adaptive Auxiliary Task Weighting for Reinforcement Learning
在强化学习中, 一直存在数据利用率低的问题,尤其是在观测值是高维图像的情况下。如果引入一些额外的辅助任务,将这些任务的知识迁移到强化学习主任务中是一个可以提高数据利用率的方法,同时也能帮助提高强化学习的基础表征,但如何将这些辅助任务进行融合是一个大问题,因为不确定这些辅助任务是否真的在帮助主任务,也不知道它们何时会对主任务的训练产生反作用。
Adapting Auxiliary Losses Using Gradient Similarity & Adaptive Auxiliary Task 主要利用各任务梯度之间的余弦相似度作为权重来判断辅助任务是否在帮助降低主任务的损失。Adaptive Auxiliary Task Weighting for Reinforcement Learning 则提出了一种在线学习的算法,主要基于辅助任务应该从长远来看提供一种帮助降低主任务损失的梯度方向。两篇论文都是想要动态调节辅助任务损失的权重来达到融合辅助任务的作用。
Kubernetes GPU pid 转 Pod
本文主要说明在 Kubesphere 自动化生成的 Kubernetes 中,如何监控 GPU ,如何获取每个节点上使用 GPU 的进程信息并将其转换为 Kubernetes 中的 Pod 信息。所有信息数据都由 Kubesphere 生成的 prometheus 进行抓取。
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Evolution Strategies as a Scalable Alternative to Reinforcement Learning 将 natural evolution strategies (NES) 替代深度强化学习,通过简单标量数据传递,就可以利用分布式集群的多 CPU 性能,快速扩展训练规模、快速训练智能体。
Never Give Up: Learning Directed Exploration Strategies
Never Give Up: Learning Directed Exploration Strategies 是 DeepMind 在 ICLR 2020 上发表的一篇论文,主要解决探索与利用问题。这篇论文可以看作是三篇论文的结合:
- Curiosity-driven Exploration by Self-supervised Prediction
- Neural Episodic Control
- Exploration by Random Network Distillation
也是使用内在奖励 (intrinsic reward) 机制,与外部奖励 (external reward) 合起来作为奖励值进行强化学习的训练。