8 个月前

John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

摘要

我们提出了一类新的强化学习策略梯度方法，该方法通过与环境交互采样数据，并使用随机梯度上升优化一个“替代”目标函数，交替进行。传统的策略梯度方法每次采样数据后仅进行一次梯度更新，而我们提出了一种新颖的目标函数，允许进行多个小批量更新的周期。我们将这些新方法称为近端策略优化（Proximal Policy Optimization, PPO），它们具有一些信任区域策略优化（Trust Region Policy Optimization, TRPO）的优点，但实现起来更加简单，适用范围更广，并且在样本复杂度方面表现出更好的性能（实证结果）。我们的实验在一系列基准任务上测试了PPO，包括模拟机器人运动和Atari游戏玩法，并展示了PPO优于其他在线策略梯度方法，总体上在样本复杂度、简洁性和运行时间之间取得了有利的平衡。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

摘要

我们提出了一类新的强化学习策略梯度方法，该方法通过与环境交互采样数据，并使用随机梯度上升优化一个“替代”目标函数，交替进行。传统的策略梯度方法每次采样数据后仅进行一次梯度更新，而我们提出了一种新颖的目标函数，允许进行多个小批量更新的周期。我们将这些新方法称为近端策略优化（Proximal Policy Optimization, PPO），它们具有一些信任区域策略优化（Trust Region Policy Optimization, TRPO）的优点，但实现起来更加简单，适用范围更广，并且在样本复杂度方面表现出更好的性能（实证结果）。我们的实验在一系列基准任务上测试了PPO，包括模拟机器人运动和Atari游戏玩法，并展示了PPO优于其他在线策略梯度方法，总体上在样本复杂度、简洁性和运行时间之间取得了有利的平衡。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供