Command Palette
Search for a command to run...
Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever

摘要
我们探讨了进化策略(Evolution Strategies, ES)这一类黑盒优化算法作为基于马尔可夫决策过程(MDP)的强化学习(RL)技术(如Q学习和策略梯度)的替代方案。在MuJoCo和Atari上的实验表明,ES是一种可行的解决方案策略,其性能随着可用CPU数量的增加而显著提升:通过采用一种基于公共随机数的新颖通信策略,我们的ES实现仅需传输标量数据,从而可以扩展到超过一千个并行工作节点。这使得我们在10分钟内解决了3D人体行走问题,并在经过一小时训练后,在大多数Atari游戏中取得了具有竞争力的结果。此外,我们还强调了ES作为黑盒优化技术的几个优势:它对动作频率和延迟奖励具有不变性,能够容忍极长的时间范围,并且不需要时间折现或价值函数近似。
代码仓库
cesch97/NeuroEvolution
GitHub 中提及
patniemeyer/ga-autoencoder
pytorch
GitHub 中提及
rasmusbergpalm/evostrat
pytorch
GitHub 中提及
silvialuu/DRL-2018
pytorch
GitHub 中提及
czen88/qtrader
tf
GitHub 中提及
nnaisense/pgpelib
pytorch
GitHub 中提及
alisidd/Evolution-Strategies
tf
GitHub 中提及
evaboost/evaboost
GitHub 中提及
aspk/space_battle
GitHub 中提及
shakti365/nes
GitHub 中提及
fiberleif/evolution-strategies
tf
GitHub 中提及
enajx/ES
pytorch
GitHub 中提及
ShangtongZhang/DistributedES
pytorch
GitHub 中提及
susanwe/ope_worldmodels
GitHub 中提及
neuro-soup/es-torch
jax
GitHub 中提及
FlixCoder/rust-es-optimizer
GitHub 中提及
openai/evolution-strategies-starter
官方
tf
GitHub 中提及
atgambardella/pytorch-es
pytorch
GitHub 中提及
neilsgp/RL-Algorithms
GitHub 中提及
AnshMittal1811/AugmentedRandomSearch
GitHub 中提及