在离散行为空间中,Q-learning 的策略选择与目标值为:
一种最简单的解决方法是:
第二种,来自于论文 Continuous deep q-learning with model-based acceleration
论文中,作者精心构造了由优势函数与状态价值函数组成的
整个网络的架构为:
算法如下:
这么做的话,算法和原来的 Q-learning 一样。但是缺点就在于
论文中还提出了基于模型的使用 iLQR 方法来加速训练,此处不再说明。
第三种是使用 Deep Deterministic Policy Gradient 算法。
v1.5.2