6 个月前

摘要

由于目标在视频中存在外观变化、姿态与视角差异以及几何形变等问题，精确跟踪仍然是一个具有挑战性的任务。近年来，无锚框（anchor-free）跟踪器虽提供了高效的回归机制，但在生成精确的边界框估计方面仍存在不足。为解决上述问题，本文提出一种类Transformer的回归分支——目标变换回归（Target Transformed Regression, TREG），用于实现高精度的无锚框跟踪。TREG的核心思想是建模目标模板与搜索区域之间元素间的成对关系，并利用由此生成的目标增强型视觉表征，实现精确的边界框回归。该目标上下文化表征能够强化与目标相关的信息，有助于精确定位边界框边界，并由于其局部密集匹配机制，在一定程度上缓解了目标形变带来的影响。此外，本文设计了一种简洁的在线模板更新机制，用于筛选可靠的模板，从而提升对目标外观变化及几何形变的鲁棒性。在VOT2018、VOT2019、OTB100、GOT10k、NFS、UAV123、LaSOT和TrackingNet等多个视觉跟踪基准上的实验结果表明，TREG取得了当前最优的性能，在LaSOT数据集上达到0.640的成功率（Success Rate），同时运行速度稳定在约30 FPS。代码与模型将公开于：https://github.com/MCG-NJU/TREG。

源 PDF