8 个月前

计算机视觉

计算机视觉

Ben Kang Xin Chen Simiao Lai Yang Liu Yi Liu Dong Wang

摘要

视频级别的上下文信息在视觉目标跟踪中变得越来越重要。然而，现有的方法通常仅使用少数几个标记来传递这些信息，这可能导致信息丢失并限制其全面捕捉上下文的能力。为了解决这一问题，我们提出了一种新的视频级别视觉目标跟踪框架，称为MCITrack。该框架利用Mamba的隐藏状态，持续记录并传输整个视频流中的大量上下文信息，从而实现更稳健的目标跟踪。MCITrack的核心组件是上下文信息融合模块，该模块由Mamba层和交叉注意力层组成。Mamba层存储历史上下文信息，而交叉注意力层将这些信息整合到每个骨干块的当前视觉特征中。通过与骨干网络的深度集成，该模块增强了模型在多个层次上捕捉和利用上下文信息的能力。实验结果表明，MCITrack在多个基准测试中表现出色。例如，在LaSOT数据集上实现了76.6%的AUC（Area Under Curve），在GOT-10k数据集上实现了80.0%的AO（Average Overlap），确立了新的最先进性能。代码和模型可在https://github.com/kangben258/MCITrack 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Ben Kang Xin Chen Simiao Lai Yang Liu Yi Liu Dong Wang

摘要

视频级别的上下文信息在视觉目标跟踪中变得越来越重要。然而，现有的方法通常仅使用少数几个标记来传递这些信息，这可能导致信息丢失并限制其全面捕捉上下文的能力。为了解决这一问题，我们提出了一种新的视频级别视觉目标跟踪框架，称为MCITrack。该框架利用Mamba的隐藏状态，持续记录并传输整个视频流中的大量上下文信息，从而实现更稳健的目标跟踪。MCITrack的核心组件是上下文信息融合模块，该模块由Mamba层和交叉注意力层组成。Mamba层存储历史上下文信息，而交叉注意力层将这些信息整合到每个骨干块的当前视觉特征中。通过与骨干网络的深度集成，该模块增强了模型在多个层次上捕捉和利用上下文信息的能力。实验结果表明，MCITrack在多个基准测试中表现出色。例如，在LaSOT数据集上实现了76.6%的AUC（Area Under Curve），在GOT-10k数据集上实现了80.0%的AO（Average Overlap），确立了新的最先进性能。代码和模型可在https://github.com/kangben258/MCITrack 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供