Command Palette

Search for a command to run...

5 个月前

多通道Q网络在参数化动作空间中的深度强化学习应用

Craig J. Bester; Steven D. James; George D. Konidaris

多通道Q网络在参数化动作空间中的深度强化学习应用

摘要

在强化学习中,参数化动作由离散动作和连续动作参数组成。这为解决需要将高层次动作与灵活控制相结合的复杂领域提供了一个框架。最近的P-DQN算法扩展了深度Q网络,以学习这种动作空间。然而,该算法将所有动作参数视为Q网络的单一联合输入,从而破坏了其理论基础。我们分析了这种方法存在的问题,并提出了一种新的方法——多遍深度Q网络(MP-DQN),以解决这些问题。通过实验验证,我们证明MP-DQN在数据效率和收敛策略性能方面显著优于P-DQN和其他先前的算法,在平台、机器人足球射门和半场进攻等领域表现尤为突出。

代码仓库

cycraig/MP-DQN
官方
pytorch
GitHub 中提及
cycraig/gym-goal
GitHub 中提及
cycraig/gym-platform
GitHub 中提及

基准测试

基准方法指标
control-with-prametrised-actions-on-halfMP-DQN
Goal Probability: 0.913
control-with-prametrised-actions-on-platformMP-DQN
Return: 0.987
control-with-prametrised-actions-on-robotMP-DQN
Goal Probability: 0.789

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供