HyperAIHyperAI

Command Palette

Search for a command to run...

进化策略作为强化学习的可扩展替代方案

Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever

摘要

我们探讨了进化策略(Evolution Strategies, ES)这一类黑盒优化算法作为基于马尔可夫决策过程(MDP)的强化学习(RL)技术(如Q学习和策略梯度)的替代方案。在MuJoCo和Atari上的实验表明,ES是一种可行的解决方案策略,其性能随着可用CPU数量的增加而显著提升:通过采用一种基于公共随机数的新颖通信策略,我们的ES实现仅需传输标量数据,从而可以扩展到超过一千个并行工作节点。这使得我们在10分钟内解决了3D人体行走问题,并在经过一小时训练后,在大多数Atari游戏中取得了具有竞争力的结果。此外,我们还强调了ES作为黑盒优化技术的几个优势:它对动作频率和延迟奖励具有不变性,能够容忍极长的时间范围,并且不需要时间折现或价值函数近似。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供