Command Palette
Search for a command to run...

摘要
在复杂环境中的高效探索仍然是强化学习面临的主要挑战之一。我们提出了一种基于自举的DQN(bootstrapped DQN)算法,该算法通过使用随机价值函数以计算和统计上高效的方式进行探索。与ε-贪心探索等抖动策略不同,自举DQN执行时间扩展(或深度)探索;这可以显著加快学习速度。我们在复杂的随机MDP(Markov Decision Processes)和大规模的街机学习环境中展示了这些优势。自举DQN在大多数Atari游戏中大幅提高了学习时间和性能。
代码仓库
johannah/bootstrap_dqn
pytorch
GitHub 中提及
tensorflow/models
tf
GitHub 中提及
mrahtz/learning-from-human-preferences
tf
GitHub 中提及
NervanaSystems/coach
tf
GitHub 中提及