Command Palette
Search for a command to run...
Jiyang Gao; Zhenheng Yang; Ram Nevatia

摘要
动作预测旨在在动作发生之前进行检测。许多机器人和监控领域的实际应用都与此预测能力密切相关。目前的方法通过首先预测未来帧的视觉表示,然后对这些预测的表示进行分类以识别动作来解决这一问题。然而,现有的方法仅基于单个过去的帧表示,忽略了历史趋势。此外,它们只能预测固定的时间点的未来情况。为此,我们提出了一种强化编码器-解码器(Reinforced Encoder-Decoder, RED)网络用于动作预测。RED将多个历史表示作为输入,并学习生成一系列未来的表示。RED的一个显著特点是采用了强化模块以提供序列级别的监督;奖励函数的设计旨在鼓励系统尽可能早地做出正确的预测。我们在TVSeries、THUMOS-14和TV-Human-Interaction数据集上测试了RED的动作预测性能,并在所有数据集上均达到了当前最佳水平。
代码仓库
rajskar/CS763Project
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-anticipation-on-epic-kitchens-55-1 | ED | Top 1 Accuracy - Act.: 2.65 Top 1 Accuracy - Noun: 7.81 Top 1 Accuracy - Verb: 22.52 Top 5 Accuracy - Act.: 7.57 Top 5 Accuracy - Noun: 21.42 Top 5 Accuracy - Verb: 62.65 |
| action-anticipation-on-epic-kitchens-55-seen | ED | Top 1 Accuracy - Act.: 8.08 Top 1 Accuracy - Noun: 16.07 Top 1 Accuracy - Verb: 29.35 Top 5 Accuracy - Act.: 18.19 Top 5 Accuracy - Noun: 38.83 Top 5 Accuracy - Verb: 74.49 |