学界策略梯度下降过时了,OpenAI拿出

AI科技评论按:美国时间7月20日,OpenAI刚刚通过自己的研究博客介绍了一种新的优化算法ProximalPolicyOptimization(近端策略优化,PPO)。据介绍,这种算法用在强化学习中时表现能达到甚至超过现有算法的顶尖水平,同时还更易于实现和调试。所以OpenAI已经把PPO作为自己强化学习研究中首选的算法。AI科技评论把这篇介绍PPO算法的博文编译如下。

图中就是一个OpenAI利用PPO训练的机器人。它要学习走、跑、转弯来尝试接近球型的、随机移动的目标;环境中还有一个会撞机器人的小球给它增大难度,所以它还要学会受到撞击以后恢复平衡,甚至被撞倒以后重新站起来。

现有算法

近期的策略梯度的一类方法让深度神经网络在控制任务中取得了明显进步,电脑游戏、三维运动、围棋都是很好的例子。但是用策略梯度的方法取得好的结果也有一些难度,因为这类方法对迭代步骤数非常敏感:如果选得太小,训练过程就会慢得令人绝望;如果选得太大,反馈信号就会淹没在噪声中,甚至有可能让模型表现雪崩式地下降。这类方法的采样效率也经常很低,学习简单的任务就需要百万级至十亿级的总迭代次数。

为了解决方法中的这些问题,研究人员们已经找到了TRPO(TrustRegionPolicyOptimization,信任区域策略优化,







































鍎跨鐧界櫆椋庣殑鏃╂湡鐥囩姸
鍖椾含涓鐧界櫆椋庡尰闄?



转载请注明:http://www.guyang114.com/qtwzyhjq/yxfa/6441.html