Command Palette

Search for a command to run...

3 个月前

不破不立:基于大视频-语言模型的合理动作预测

Himangi Mittal Nakul Agarwal Shao-Yuan Lo Kwonjoon Lee

不破不立:基于大视频-语言模型的合理动作预测

摘要

我们提出了PlausiVL,这是一个用于预测在现实世界中具有合理性的动作序列的大规模视频-语言模型。尽管在预测未来动作方面已有大量研究,但以往方法普遍忽视了动作序列中“合理性”这一关键维度。为解决这一局限,本文探索了大规模视频-语言模型的生成能力,并进一步通过引入两种客观损失函数,深化了对动作序列合理性的理解:一种基于反事实的合理动作序列学习损失,以及一种长时程动作重复损失。我们利用时间逻辑约束和动词-名词动作对的逻辑约束,构建出不合理或反事实的动作序列,并以此作为训练样本,结合合理动作序列学习损失来训练模型。该损失函数有助于模型区分合理与不合理动作序列,同时促使模型学习到对动作预测任务至关重要的隐式时间线索。此外,长时程动作重复损失对在较长时间窗口内更易重复的动作施加更高的惩罚,从而促使模型生成更具多样性且合理的动作序列。我们在两个大规模数据集Ego4D和EPIC-Kitchens-100上对所提方法进行了评估,结果表明,该方法在动作预测任务上取得了显著性能提升。

基准测试

基准方法指标
action-anticipation-on-epic-kitchens-100PlausiVL
Recall@5: 27.60
Top-5 Noun: 54.23
Top-5 Verb: 55.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
不破不立:基于大视频-语言模型的合理动作预测 | 论文 | HyperAI超神经