Command Palette
Search for a command to run...
Will Dabney; Georg Ostrovski; David Silver; Rémi Munos

摘要
在本研究中,我们基于近期在分布强化学习领域的进展,提出了一种普遍适用、灵活且处于前沿的DQN(深度Q网络)分布变体。我们通过使用分位数回归来近似状态-动作回报分布的完整分位数函数,从而实现这一目标。通过对样本空间上的分布进行重新参数化,这产生了一个隐式定义的回报分布,并引发了一大类风险敏感策略。我们在ALE(Arcade Learning Environment)中的57款Atari 2600游戏中展示了改进的性能,并利用算法隐式定义的分布研究了风险敏感策略在Atari游戏中的影响。
代码仓库
BY571/IQN
pytorch
GitHub 中提及
pihey1995/DistributionalRL
pytorch
GitHub 中提及
ku2482/rljax
jax
GitHub 中提及
sjYoondeltar/myRL_example
tf
GitHub 中提及
marload/dist-rl-tf2
tf
GitHub 中提及
chainer/chainerrl
pytorch
GitHub 中提及
Abdelhamid-bouzid/Distributional-RL
pytorch
GitHub 中提及
sjYoondeltar/IQN_example
tf
GitHub 中提及
ACampero/dopamine
tf
GitHub 中提及
KatyNTsachi/Hierarchical-RL
tf
GitHub 中提及
ku2482/fqf-iqn-qrdqn.pytorch
pytorch
GitHub 中提及
V0LsTeR/dopamine_prioritized_buffer
tf
GitHub 中提及
Kchu/DeepRL_CK
pytorch
GitHub 中提及
robinzixuan/IQN_Agent
pytorch
GitHub 中提及
GoingMyWay/dopamine_reward_decomposition
tf
GitHub 中提及
marload/DistRL-TensorFlow2
tf
GitHub 中提及
V0LsTeR/DQN_heap
tf
GitHub 中提及