6 个月前

摘要

我们提出了PlausiVL，这是一个用于预测在现实世界中具有合理性的动作序列的大规模视频-语言模型。尽管在预测未来动作方面已有大量研究，但以往方法普遍忽视了动作序列中“合理性”这一关键维度。为解决这一局限，本文探索了大规模视频-语言模型的生成能力，并进一步通过引入两种客观损失函数，深化了对动作序列合理性的理解：一种基于反事实的合理动作序列学习损失，以及一种长时程动作重复损失。我们利用时间逻辑约束和动词-名词动作对的逻辑约束，构建出不合理或反事实的动作序列，并以此作为训练样本，结合合理动作序列学习损失来训练模型。该损失函数有助于模型区分合理与不合理动作序列，同时促使模型学习到对动作预测任务至关重要的隐式时间线索。此外，长时程动作重复损失对在较长时间窗口内更易重复的动作施加更高的惩罚，从而促使模型生成更具多样性且合理的动作序列。我们在两个大规模数据集Ego4D和EPIC-Kitchens-100上对所提方法进行了评估，结果表明，该方法在动作预测任务上取得了显著性能提升。

源 PDF