Command Palette
Search for a command to run...
Yutao Cui Cheng Jiang Limin Wang Gangshan Wu

摘要
由于目标在视频中存在外观变化、姿态与视角差异以及几何形变等问题,精确跟踪仍然是一个具有挑战性的任务。近年来,无锚框(anchor-free)跟踪器虽提供了高效的回归机制,但在生成精确的边界框估计方面仍存在不足。为解决上述问题,本文提出一种类Transformer的回归分支——目标变换回归(Target Transformed Regression, TREG),用于实现高精度的无锚框跟踪。TREG的核心思想是建模目标模板与搜索区域之间元素间的成对关系,并利用由此生成的目标增强型视觉表征,实现精确的边界框回归。该目标上下文化表征能够强化与目标相关的信息,有助于精确定位边界框边界,并由于其局部密集匹配机制,在一定程度上缓解了目标形变带来的影响。此外,本文设计了一种简洁的在线模板更新机制,用于筛选可靠的模板,从而提升对目标外观变化及几何形变的鲁棒性。在VOT2018、VOT2019、OTB100、GOT10k、NFS、UAV123、LaSOT和TrackingNet等多个视觉跟踪基准上的实验结果表明,TREG取得了当前最优的性能,在LaSOT数据集上达到0.640的成功率(Success Rate),同时运行速度稳定在约30 FPS。代码与模型将公开于:https://github.com/MCG-NJU/TREG。
代码仓库
MCG-NJU/TREG
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| visual-object-tracking-on-got-10k | TREG | Average Overlap: 66.8 Success Rate 0.5: 77.8 Success Rate 0.75: 57.2  | 
| visual-object-tracking-on-trackingnet | TREG | Accuracy: 78.5 Normalized Precision: 83.8 Precision: 75  | 
| visual-object-tracking-on-uav123 | TREG | AUC: 0.669 Precision: 0.884  | 
| visual-object-tracking-on-vot2018 | TREG | Accuracy: 61.2 Expected Average Overlap (EAO): 0.496  | 
| visual-object-tracking-on-vot2019 | TREG | Accuracy: 60.3 Expected Average Overlap (EAO): 0.391  |