4 个月前

通过自举DQN进行深度探索

Ian Osband; Charles Blundell; Alexander Pritzel; Benjamin Van Roy

摘要

在复杂环境中的高效探索仍然是强化学习面临的主要挑战之一。我们提出了一种基于自举的DQN（bootstrapped DQN）算法，该算法通过使用随机价值函数以计算和统计上高效的方式进行探索。与ε-贪心探索等抖动策略不同，自举DQN执行时间扩展（或深度）探索；这可以显著加快学习速度。我们在复杂的随机MDP（Markov Decision Processes）和大规模的街机学习环境中展示了这些优势。自举DQN在大多数Atari游戏中大幅提高了学习时间和性能。

代码仓库

johannah/bootstrap_dqn

pytorch

GitHub 中提及

yaringal/HeteroscedasticDropoutUncertainty

GitHub 中提及

tensorflow/models

GitHub 中提及

mrahtz/learning-from-human-preferences

GitHub 中提及

tensorflow/models/tree/master/research/deep_contextual_bandits

GitHub 中提及

NervanaSystems/coach

GitHub 中提及

基准测试

基准	方法	指标
atari-games-on-atari-2600-alien	Bootstrapped DQN	Score: 2436.6
atari-games-on-atari-2600-amidar	Bootstrapped DQN	Score: 1272.5
atari-games-on-atari-2600-assault	Bootstrapped DQN	Score: 8047.1
atari-games-on-atari-2600-asterix	Bootstrapped DQN	Score: 19713.2
atari-games-on-atari-2600-asteroids	Bootstrapped DQN	Score: 1032
atari-games-on-atari-2600-atlantis	Bootstrapped DQN	Score: 994500
atari-games-on-atari-2600-bank-heist	Bootstrapped DQN	Score: 1208
atari-games-on-atari-2600-battle-zone	Bootstrapped DQN	Score: 38666.7
atari-games-on-atari-2600-beam-rider	Bootstrapped DQN	Score: 23429.8
atari-games-on-atari-2600-bowling	Bootstrapped DQN	Score: 60.2
atari-games-on-atari-2600-boxing	Bootstrapped DQN	Score: 93.2
atari-games-on-atari-2600-breakout	Bootstrapped DQN	Score: 855
atari-games-on-atari-2600-centipede	Bootstrapped DQN	Score: 4553.5
atari-games-on-atari-2600-chopper-command	Bootstrapped DQN	Score: 4100
atari-games-on-atari-2600-crazy-climber	Bootstrapped DQN	Score: 137925.9
atari-games-on-atari-2600-demon-attack	Bootstrapped DQN	Score: 82610
atari-games-on-atari-2600-double-dunk	Bootstrapped DQN	Score: 3
atari-games-on-atari-2600-enduro	Bootstrapped DQN	Score: 1591
atari-games-on-atari-2600-fishing-derby	Bootstrapped DQN	Score: 26
atari-games-on-atari-2600-freeway	Bootstrapped DQN	Score: 33.9
atari-games-on-atari-2600-frostbite	Bootstrapped DQN	Score: 2181.4
atari-games-on-atari-2600-gopher	Bootstrapped DQN	Score: 17438.4
atari-games-on-atari-2600-gravitar	Bootstrapped DQN	Score: 286.1
atari-games-on-atari-2600-hero	Bootstrapped DQN	Score: 21021.3
atari-games-on-atari-2600-ice-hockey	Bootstrapped DQN	Score: -1.3
atari-games-on-atari-2600-james-bond	Bootstrapped DQN	Score: 1663.5
atari-games-on-atari-2600-kangaroo	Bootstrapped DQN	Score: 14862.5
atari-games-on-atari-2600-krull	Bootstrapped DQN	Score: 8627.9
atari-games-on-atari-2600-kung-fu-master	Bootstrapped DQN	Score: 36733.3
atari-games-on-atari-2600-montezumas-revenge	Bootstrapped DQN	Score: 100
atari-games-on-atari-2600-ms-pacman	Bootstrapped DQN	Score: 2983.3
atari-games-on-atari-2600-name-this-game	Bootstrapped DQN	Score: 11501.1
atari-games-on-atari-2600-pong	Bootstrapped DQN	Score: 20.9
atari-games-on-atari-2600-private-eye	Bootstrapped DQN	Score: 1812.5
atari-games-on-atari-2600-qbert	Bootstrapped DQN	Score: 15092.7
atari-games-on-atari-2600-river-raid	Bootstrapped DQN	Score: 12845
atari-games-on-atari-2600-road-runner	Bootstrapped DQN	Score: 51500
atari-games-on-atari-2600-robotank	Bootstrapped DQN	Score: 66.6
atari-games-on-atari-2600-seaquest	Bootstrapped DQN	Score: 9083.1
atari-games-on-atari-2600-space-invaders	Bootstrapped DQN	Score: 2893
atari-games-on-atari-2600-star-gunner	Bootstrapped DQN	Score: 55725
atari-games-on-atari-2600-tennis	Bootstrapped DQN	Score: 0
atari-games-on-atari-2600-time-pilot	Bootstrapped DQN	Score: 9079.4
atari-games-on-atari-2600-tutankham	Bootstrapped DQN	Score: 214.8
atari-games-on-atari-2600-up-and-down	Bootstrapped DQN	Score: 26231
atari-games-on-atari-2600-venture	Bootstrapped DQN	Score: 212.5
atari-games-on-atari-2600-video-pinball	Bootstrapped DQN	Score: 811610
atari-games-on-atari-2600-wizard-of-wor	Bootstrapped DQN	Score: 6804.7
atari-games-on-atari-2600-zaxxon	Bootstrapped DQN	Score: 11491.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

通过自举DQN进行深度探索

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters