在 Trust Region Policy Optimization 论文中,作者提出了一种保证策略迭代优化的过程单调不减地朝更好的方向发展的算法,也就是说每一次策略的改善,都保证改善后的策略比前一个策略要好。在理论的基础上做了一些近似后,得到了能实际运用的算法: Trust Region Policy Optimization (TRPO)
策略梯度的参数更新方程为: \[ \theta_{new} = \theta_{old} + \alpha \nabla_\theta J \] 其中 \(\alpha\) 为更新步长,然而这个步长很难确定,一个不好的步长会使参数所对应的策略变得不好,而接着又用这个不好的策略来进行采样学习,会使得策略越来越差,所以步长至关重要,如何选取步长使得策略不会变得更差就是 TRPO 要解决的问题。