8 个月前

Chen-Hao Chao∗1,2 Chien Feng∗1 Wei-Fang Sun2 Cheng-Kuang Lee2 Simon See2 Chun-Yi Lee†1

摘要

现有的连续动作空间最大熵（MaxEnt）强化学习（RL）方法通常基于行为者-评论家框架，并通过交替进行策略评估和策略改进步骤来优化。在策略评估步骤中，评论家被更新以捕捉软Q函数。在策略改进步骤中，行为者根据更新后的软Q函数进行调整。本文介绍了一种新的基于能量基归一化流（EBFlow）的最大熵强化学习框架。该框架整合了策略评估步骤和策略改进步骤，形成了单一目标的训练过程。我们的方法能够在无需蒙特卡洛近似的情况下计算用于策略评估目标的软价值函数。此外，这种设计支持多模态动作分布的建模，同时便于高效的动作采样。为了评估我们方法的性能，我们在MuJoCo基准套件和由Omniverse Isaac Gym模拟的一系列高维机器人任务上进行了实验。评估结果表明，我们的方法相比广泛采用的代表性基线方法具有更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Chen-Hao Chao∗1,2 Chien Feng∗1 Wei-Fang Sun2 Cheng-Kuang Lee2 Simon See2 Chun-Yi Lee†1

摘要

现有的连续动作空间最大熵（MaxEnt）强化学习（RL）方法通常基于行为者-评论家框架，并通过交替进行策略评估和策略改进步骤来优化。在策略评估步骤中，评论家被更新以捕捉软Q函数。在策略改进步骤中，行为者根据更新后的软Q函数进行调整。本文介绍了一种新的基于能量基归一化流（EBFlow）的最大熵强化学习框架。该框架整合了策略评估步骤和策略改进步骤，形成了单一目标的训练过程。我们的方法能够在无需蒙特卡洛近似的情况下计算用于策略评估目标的软价值函数。此外，这种设计支持多模态动作分布的建模，同时便于高效的动作采样。为了评估我们方法的性能，我们在MuJoCo基准套件和由Omniverse Isaac Gym模拟的一系列高维机器人任务上进行了实验。评估结果表明，我们的方法相比广泛采用的代表性基线方法具有更优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供