Command Palette
Search for a command to run...
Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos

摘要
在强化学习中,智能体通过采取行动并与环境互动来观察下一个状态和奖励。当这些状态转移、奖励和行动以概率方式进行采样时,它们都可能在观察到的长期回报中引入随机性。传统上,强化学习算法通过对这种随机性进行平均来估计价值函数。本文基于近期倡导的一种分布式强化学习方法,该方法明确建模回报的分布,而不仅仅是估计其均值。也就是说,我们研究了学习价值分布而不是价值函数的方法。我们给出了一些结果,填补了Bellemare、Dabney和Munos(2017)在理论与算法结果之间的多个空白。首先,我们将现有结果扩展到了近似分布设置。其次,我们提出了一种新的与我们的理论框架一致的分布式强化学习算法。最后,我们在Atari 2600游戏上评估了这一新算法,观察到它显著优于许多最近对DQN的改进,包括相关的分布式算法C51。
代码仓库
facebookresearch/Horizon
pytorch
GitHub 中提及
ku2482/rljax
jax
GitHub 中提及
sannebh/riskaverse
pytorch
GitHub 中提及
marload/dist-rl-tf2
tf
GitHub 中提及
sannebh/riskaverse_rl
pytorch
GitHub 中提及
Abdelhamid-bouzid/Distributional-RL
pytorch
GitHub 中提及
ku2482/fqf-iqn-qrdqn.pytorch
pytorch
GitHub 中提及
ars-ashuha/quantile-regression-dqn-pytorch
pytorch
GitHub 中提及
ZiyiLiubird/DeepMARL-PyTorch
pytorch
senya-ashukha/quantile-regression-dqn-pytorch
pytorch
GitHub 中提及
facebookresearch/ReAgent
pytorch
GitHub 中提及
Kchu/DeepRL_CK
pytorch
GitHub 中提及
robinzixuan/IQN_Agent
pytorch
GitHub 中提及
marload/DistRL-TensorFlow2
tf
GitHub 中提及
DLR-RM/stable-baselines3
pytorch