4 个月前

隐式分位数网络在分布强化学习中的应用

Will Dabney; Georg Ostrovski; David Silver; Rémi Munos

摘要

在本研究中，我们基于近期在分布强化学习领域的进展，提出了一种普遍适用、灵活且处于前沿的DQN（深度Q网络）分布变体。我们通过使用分位数回归来近似状态-动作回报分布的完整分位数函数，从而实现这一目标。通过对样本空间上的分布进行重新参数化，这产生了一个隐式定义的回报分布，并引发了一大类风险敏感策略。我们在ALE（Arcade Learning Environment）中的57款Atari 2600游戏中展示了改进的性能，并利用算法隐式定义的分布研究了风险敏感策略在Atari游戏中的影响。

代码仓库

BY571/IQN

pytorch

GitHub 中提及

pihey1995/DistributionalRL

pytorch

GitHub 中提及

ku2482/rljax

jax

GitHub 中提及

sjYoondeltar/myRL_example

GitHub 中提及

marload/dist-rl-tf2

GitHub 中提及

chainer/chainerrl

pytorch

GitHub 中提及

SeungeonBaek/discrete-agents-test

Abdelhamid-bouzid/Distributional-RL

pytorch

GitHub 中提及

sjYoondeltar/IQN_example

GitHub 中提及

ACampero/dopamine

GitHub 中提及

KatyNTsachi/Hierarchical-RL

GitHub 中提及

ku2482/fqf-iqn-qrdqn.pytorch

pytorch

GitHub 中提及

V0LsTeR/dopamine_prioritized_buffer

GitHub 中提及

Kchu/DeepRL_CK

pytorch

GitHub 中提及

robinzixuan/IQN_Agent

pytorch

GitHub 中提及

GoingMyWay/dopamine_reward_decomposition

GitHub 中提及

opendilab/DI-engine/blob/main/ding/policy/iqn.py

pytorch

marload/DistRL-TensorFlow2

GitHub 中提及

V0LsTeR/DQN_heap

GitHub 中提及

基准测试

基准	方法	指标
atari-games-on-atari-2600-alien	IQN	Score: 7022
atari-games-on-atari-2600-amidar	IQN	Score: 2946
atari-games-on-atari-2600-assault	IQN	Score: 29091
atari-games-on-atari-2600-asterix	IQN	Score: 342016
atari-games-on-atari-2600-asteroids	IQN	Score: 2898
atari-games-on-atari-2600-atlantis	IQN	Score: 978200
atari-games-on-atari-2600-bank-heist	IQN	Score: 1416
atari-games-on-atari-2600-battle-zone	IQN	Score: 42244
atari-games-on-atari-2600-beam-rider	IQN	Score: 42776
atari-games-on-atari-2600-berzerk	IQN	Score: 1053
atari-games-on-atari-2600-bowling	IQN	Score: 86.5
atari-games-on-atari-2600-boxing	IQN	Score: 99.8
atari-games-on-atari-2600-breakout	IQN	Score: 734
atari-games-on-atari-2600-centipede	IQN	Score: 11561
atari-games-on-atari-2600-chopper-command	IQN	Score: 16836
atari-games-on-atari-2600-crazy-climber	IQN	Score: 179082
atari-games-on-atari-2600-defender	IQN	Score: 53537
atari-games-on-atari-2600-demon-attack	IQN	Score: 128580
atari-games-on-atari-2600-double-dunk	IQN	Score: 5.6
atari-games-on-atari-2600-enduro	IQN	Score: 2359
atari-games-on-atari-2600-fishing-derby	IQN	Score: 33.8
atari-games-on-atari-2600-freeway	IQN	Score: 34
atari-games-on-atari-2600-frostbite	IQN	Score: 4324
atari-games-on-atari-2600-gopher	IQN	Score: 118365
atari-games-on-atari-2600-gravitar	IQN	Score: 911
atari-games-on-atari-2600-hero	IQN	Score: 28386
atari-games-on-atari-2600-ice-hockey	IQN	Score: 0.2
atari-games-on-atari-2600-james-bond	IQN	Score: 35108
atari-games-on-atari-2600-kangaroo	IQN	Score: 15487
atari-games-on-atari-2600-krull	IQN	Score: 10707
atari-games-on-atari-2600-kung-fu-master	IQN	Score: 73512
atari-games-on-atari-2600-montezumas-revenge	IQN	Score: 0
atari-games-on-atari-2600-ms-pacman	IQN	Score: 6349
atari-games-on-atari-2600-name-this-game	IQN	Score: 22682
atari-games-on-atari-2600-phoenix	IQN	Score: 56599
atari-games-on-atari-2600-pitfall	IQN	Score: 0
atari-games-on-atari-2600-pong	IQN	Score: 21
atari-games-on-atari-2600-private-eye	IQN	Score: 200
atari-games-on-atari-2600-qbert	IQN	Score: 25750
atari-games-on-atari-2600-river-raid	IQN	Score: 17765
atari-games-on-atari-2600-road-runner	IQN	Score: 57900
atari-games-on-atari-2600-robotank	IQN	Score: 62.5
atari-games-on-atari-2600-seaquest	IQN	Score: 30140
atari-games-on-atari-2600-skiing	IQN	Score: -9289
atari-games-on-atari-2600-solaris	IQN	Score: 8007
atari-games-on-atari-2600-space-invaders	IQN	Score: 28888
atari-games-on-atari-2600-star-gunner	IQN	Score: 74677
atari-games-on-atari-2600-surround	IQN	Score: 9.4
atari-games-on-atari-2600-tennis	IQN	Score: 23.6
atari-games-on-atari-2600-time-pilot	IQN	Score: 12236
atari-games-on-atari-2600-tutankham	IQN	Score: 293
atari-games-on-atari-2600-up-and-down	IQN	Score: 88148
atari-games-on-atari-2600-venture	IQN	Score: 1318
atari-games-on-atari-2600-video-pinball	IQN	Score: 698045
atari-games-on-atari-2600-wizard-of-wor	IQN	Score: 31190
atari-games-on-atari-2600-yars-revenge	IQN	Score: 28379
atari-games-on-atari-2600-zaxxon	IQN	Score: 21772

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

隐式分位数网络在分布强化学习中的应用

Will Dabney; Georg Ostrovski; David Silver; Rémi Munos

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters