Command Palette
Search for a command to run...
Dan Horgan; John Quan; David Budden; Gabriel Barth-Maron; Matteo Hessel; Hado van Hasselt; David Silver

摘要
我们提出了一种分布式架构,用于大规模深度强化学习,该架构使智能体能够从比以往可能的数量多几个数量级的数据中有效学习。该算法将行为与学习解耦:行为者根据共享神经网络选择动作并与环境的独立实例进行交互,将由此产生的经验累积到共享的经验回放记忆中;学习者则重播经验样本并更新神经网络。该架构依赖于优先经验回放(Prioritized Experience Replay),以专注于由行为者生成的最重要数据。我们的架构在街机学习环境(Arcade Learning Environment)上显著提升了现有技术水平,不仅在较短的实际训练时间内实现了更好的最终性能。
代码仓库
neka-nat/distributed_rl
pytorch
GitHub 中提及
dannysdeng/dqn-pytorch
pytorch
GitHub 中提及
sherry4186/Distributed-DQN
GitHub 中提及
Lyusungwon/apex_dqn_pytorch
pytorch
GitHub 中提及
belepi93/Ape-X
pytorch
GitHub 中提及
eladsar/rbi
pytorch
GitHub 中提及
vwxyzjn/cleanrl
pytorch
GitHub 中提及
cindycia/Atari-SAC-Discrete
pytorch
GitHub 中提及
opendilab/DI-engine
pytorch
uber-research/ape-x
tf
GitHub 中提及
HussonnoisMaxence/RL_Algorithms
pytorch
GitHub 中提及
mightypirate1/DRL-Tetris
tf
GitHub 中提及
ku2482/rltorch
pytorch
GitHub 中提及
haje01/distper
pytorch
GitHub 中提及