Command Palette

Search for a command to run...

3 个月前

语义引导的表示学习用于动作预测

Anxhelo Diko Danilo Avola Bardh Prenkaj Federico Fontana Luigi Cinque

语义引导的表示学习用于动作预测

摘要

动作预测(Action anticipation)是指从部分观测的动作序列中预测未来行为的任务。然而,该任务面临固有的未来不确定性,以及对相互关联动作进行推理的挑战。与以往侧重于外推更优视觉与时间信息的研究不同,本文聚焦于学习能够感知其语义关联性的动作表征,该表征基于典型动作模式和上下文共现关系。为此,我们提出了全新的语义引导表征学习框架——S-GEAR(Semantically Guided Representation Learning)。S-GEAR通过学习视觉动作原型,并利用语言模型来建模这些原型之间的语义关系,从而增强表征的语义性。为验证S-GEAR的有效性,我们在四个动作预测基准数据集上进行了测试,结果显著优于现有方法:在Epic-Kitchen 55、EGTEA Gaze+和50 Salads数据集上,Top-1准确率分别提升了3.5、2.7和3.5个百分点;在Epic-Kitchens 100数据集上,Top-5召回率提升了0.8个百分点。此外,我们观察到S-GEAR能够有效将语言模型中蕴含的动作间几何关联性迁移至视觉原型中。最终,S-GEAR通过揭示动作语义关联性对预测任务的复杂影响,为动作预测研究开辟了新的方向。

代码仓库

ADiko1997/S-GEAR
官方
pytorch

基准测试

基准方法指标
action-anticipation-on-epic-kitchens-100S-GEAR
Recall@5: 19.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供