HyperAI超神经

学习鲁棒于遮挡的视觉变换器用于实时无人机追踪

You Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li
发布日期: 4/23/2025
学习鲁棒于遮挡的视觉变换器用于实时无人机追踪
摘要

近期,使用视觉变换器(Vision Transformer, ViT)作为基础架构的单流体系结构在实时无人机追踪领域展现出巨大潜力。然而,来自建筑物和树木等障碍物的频繁遮挡暴露了这些模型的一个主要缺点:它们通常缺乏有效处理遮挡的策略。为了增强单流ViT模型在空中追踪中的遮挡鲁棒性,需要开发新的方法。在本研究中,我们提出了一种基于ViT学习遮挡鲁棒表示(Occlusion-Robust Representations, ORR)的方法,用于无人机追踪。该方法通过空间Cox过程建模的随机遮挡操作来强制目标特征表示的不变性。希望这种随机遮挡能够近似模拟目标遮挡情况,从而让我们能够学习到对目标遮挡具有鲁棒性的ViT模型进行无人机追踪。这一框架被称为ORTrack。 此外,为了促进实时应用,我们提出了一种自适应特征知识蒸馏(Adaptive Feature-Based Knowledge Distillation, AFKD)方法来创建一个更为紧凑的追踪器。该学生模型ORTrack-D能够根据任务难度自适应地模仿教师模型ORTrack的行为,在保持大部分ORTrack性能的同时提供更高的效率。 在多个基准测试上的广泛实验验证了我们方法的有效性,并展示了其最先进的性能表现。代码可在https://github.com/wuyou3474/ORTrack获取。