HyperAIHyperAI

Command Palette

Search for a command to run...

复杂动作空间中的学习与规划

Thomas Hubert Julian Schrittwieser Ioannis Antonoglou Mohammadamin Barekatain Simon Schmitt David Silver

摘要

许多重要的现实世界问题涉及高维、连续或兼具高维与连续特性的动作空间,导致对所有可能动作进行完整枚举在计算上不可行。因此,通常只能对动作空间的较小子集进行采样,用于策略评估与改进。本文提出一种通用框架,能够以严谨的理论方式对这类采样得到的动作子集进行策略评估与改进。该基于采样的策略迭代框架原则上可应用于任何基于策略迭代的强化学习算法。具体而言,我们提出了“采样版MuZero”(Sampled MuZero),作为MuZero算法的扩展,能够在动作空间任意复杂的环境中通过在采样动作上进行规划来实现学习。我们在经典的围棋(Go)游戏以及两个连续控制基准任务——DeepMind控制套件(DeepMind Control Suite)和真实世界强化学习套件(Real-World RL Suite)上验证了该方法的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供