6 个月前

摘要

在众多实际应用场景中，如自动驾驶与机器人技术，提前预判行为动作的发生至关重要。本文研究了以第一人称视角（egocentric）进行动作预测的任务，旨在对第一人称视频中的未来动作进行秒级提前预测。以往的方法通常聚焦于对已观察内容的摘要表征，并基于历史观测直接预测未来动作。我们认为，若能挖掘出有助于弥补未观测帧缺失信息的潜在线索，将显著提升动作预测性能。为此，我们提出将动作预测任务分解为一系列未来特征的预测过程：通过“想象”视觉特征在近未来的变化趋势，进而基于这些构想的表征来预测未来的动作标签。与以往方法不同，我们的ImagineRNN模型并非通过特征回归进行优化，而是采用对比学习（contrastive learning）方式进行训练。我们设计了一个代理任务（proxy task），即从多个干扰项中识别出正确的未来状态，从而引导模型学习有效的未来特征表示。为进一步提升性能，我们引入了残差预测机制（residual anticipation），将模型的目标从直接预测相邻帧的完整内容，转变为预测相邻帧特征之间的差异。该设计促使网络更专注于与未来动作预测密切相关的关键信息——即特征变化的动态模式，而非冗余的静态内容。在两个大规模第一人称动作数据集上的大量实验验证了所提方法的有效性。结果表明，我们的方法在EPIC Kitchens动作预测挑战赛的“已见”测试集与“未见”测试集上，均显著优于现有方法，展现出更强的泛化能力与预测精度。

源 PDF