HyperAIHyperAI

Command Palette

Search for a command to run...

近端策略优化算法

John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

摘要

我们提出了一类新的强化学习策略梯度方法,该方法通过与环境交互采样数据,并使用随机梯度上升优化一个“替代”目标函数,交替进行。传统的策略梯度方法每次采样数据后仅进行一次梯度更新,而我们提出了一种新颖的目标函数,允许进行多个小批量更新的周期。我们将这些新方法称为近端策略优化(Proximal Policy Optimization, PPO),它们具有一些信任区域策略优化(Trust Region Policy Optimization, TRPO)的优点,但实现起来更加简单,适用范围更广,并且在样本复杂度方面表现出更好的性能(实证结果)。我们的实验在一系列基准任务上测试了PPO,包括模拟机器人运动和Atari游戏玩法,并展示了PPO优于其他在线策略梯度方法,总体上在样本复杂度、简洁性和运行时间之间取得了有利的平衡。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供