7 个月前

Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever

摘要

我们探讨了进化策略（Evolution Strategies, ES）这一类黑盒优化算法作为基于马尔可夫决策过程（MDP）的强化学习（RL）技术（如Q学习和策略梯度）的替代方案。在MuJoCo和Atari上的实验表明，ES是一种可行的解决方案策略，其性能随着可用CPU数量的增加而显著提升：通过采用一种基于公共随机数的新颖通信策略，我们的ES实现仅需传输标量数据，从而可以扩展到超过一千个并行工作节点。这使得我们在10分钟内解决了3D人体行走问题，并在经过一小时训练后，在大多数Atari游戏中取得了具有竞争力的结果。此外，我们还强调了ES作为黑盒优化技术的几个优势：它对动作频率和延迟奖励具有不变性，能够容忍极长的时间范围，并且不需要时间折现或价值函数近似。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever

摘要

我们探讨了进化策略（Evolution Strategies, ES）这一类黑盒优化算法作为基于马尔可夫决策过程（MDP）的强化学习（RL）技术（如Q学习和策略梯度）的替代方案。在MuJoCo和Atari上的实验表明，ES是一种可行的解决方案策略，其性能随着可用CPU数量的增加而显著提升：通过采用一种基于公共随机数的新颖通信策略，我们的ES实现仅需传输标量数据，从而可以扩展到超过一千个并行工作节点。这使得我们在10分钟内解决了3D人体行走问题，并在经过一小时训练后，在大多数Atari游戏中取得了具有竞争力的结果。此外，我们还强调了ES作为黑盒优化技术的几个优势：它对动作频率和延迟奖励具有不变性，能够容忍极长的时间范围，并且不需要时间折现或价值函数近似。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供