Command Palette

Search for a command to run...

5 个月前

离散和连续动作表示在视频游戏中的实用强化学习

Olivier Delalleau; Maxim Peter; Eloi Alonso; Adrien Logut

离散和连续动作表示在视频游戏中的实用强化学习

摘要

尽管当前强化学习(Reinforcement Learning, RL)领域的大多数研究都集中在提高算法在受控环境中的性能,但在类似视频游戏行业这样具有特定约束条件下的RL应用却鲜有研究。为了在这种约束条件下运行,我们提出了混合软演员评论家算法(Hybrid SAC),这是软演员评论家算法的一种扩展,能够以原则性的方式处理离散动作、连续动作和参数化动作。我们展示了Hybrid SAC能够在我们的一个游戏中成功解决高速驾驶任务,并且在参数化动作基准任务上与现有最先进方法具有竞争力。此外,我们还探讨了使用归一化流(normalizing flows)来增强策略表达能力的影响,这种方法可以在最小计算成本下实现。同时,我们也识别出当SAC与归一化流结合使用时可能产生的一种潜在不良效应,并提出可以通过优化不同的目标函数来解决这一问题。

代码仓库

nisheeth-golakiya/hybrid-sac
pytorch
GitHub 中提及

基准测试

基准方法指标
control-with-prametrised-actions-on-halfHybrid SAC
Goal Probability: 0.639
control-with-prametrised-actions-on-platformHybrid SAC
Return: 0.981
control-with-prametrised-actions-on-robotHybrid SAC
Goal Probability: 0.728

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
离散和连续动作表示在视频游戏中的实用强化学习 | 论文 | HyperAI超神经