HyperAIHyperAI

Command Palette

Search for a command to run...

用于深度强化学习的决斗网络架构

Ziyu Wang Tom Schaul Matteo Hessel Hado van Hasselt Marc Lanctot Nando de Freitas

摘要

近年来,深度表示在强化学习中的应用取得了许多成功。然而,许多这些应用仍然使用传统的架构,如卷积网络、LSTM(长短期记忆网络)或自编码器。本文中,我们提出了一种新的无模型强化学习神经网络架构。我们的双流网络表示两个独立的估计器:一个用于状态值函数,另一个用于状态依赖的动作优势函数。这种分解的主要好处是在不改变底层强化学习算法的情况下,能够跨动作泛化学习。实验结果表明,该架构在存在大量相似价值动作的情况下,能够实现更好的策略评估。此外,双流架构使我们的强化学习代理在Atari 2600领域超越了现有技术水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供