Command Palette
Search for a command to run...
Sanket Thakur; Cigdem Beyan; Pietro Morerio; Vittorio Murino; Alessio Del Bue

摘要
在本技术报告中,我们描述了一种基于引导注意力机制(Guided-Attention mechanism)的解决方案,用于应对EGO4D挑战中的短期预测(Short-Term Anticipation, STA)问题。该方案结合了目标检测结果以及从视频片段中提取的空间时间特征,增强了运动和上下文信息,并进一步解码以对象为中心和以运动为中心的信息,从而解决了第一人称视角视频中的STA问题。为了应对这一挑战,我们在StillFast模型的基础上构建了我们的模型,并在快速网络中应用了引导注意力机制。我们的模型在验证集上取得了更好的性能,并且在EGO4D短期对象交互预测挑战的测试集中也达到了最先进(State-of-the-Art, SOTA)的结果。
代码仓库
sanketsans/ganov2
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| short-term-object-interaction-anticipation-on | GANOv2 | Noun (Top5 mAP): 20.52 Noun+TTC (Top5 mAP): 7.28 Noun+Verb(Top5 mAP): 10.42 Overall (Top5 mAP): 3.99 |