Command Palette

Search for a command to run...

4 个月前

SAM2Long:通过无训练记忆树增强SAM 2的长视频分割能力

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

SAM2Long:通过无训练记忆树增强SAM 2的长视频分割能力

摘要

Segment Anything Model 2(SAM 2)已成为图像与视频中目标分割的强大基础模型,为多种下游视频应用铺平了道路。SAM 2在视频分割中的关键设计在于其记忆模块,该模块从先前帧中提取具有目标感知能力的内存信息,用于当前帧的预测。然而,其采用的贪心选择式记忆机制存在“误差累积”问题:一旦某帧出现错误或漏检的掩码,错误将逐帧传播,影响后续帧的分割结果,从而限制了SAM 2在复杂长时视频中的性能表现。为此,我们提出SAM2Long,一种无需额外训练的视频目标分割优化策略。该方法通过考虑每帧内部的分割不确定性,采用受约束的树搜索方式,从多个分割路径中选择视频级最优结果。在实际应用中,我们始终维持固定数量的分割路径贯穿整个视频。对于每一帧,基于现有路径生成多个候选掩码,形成不同的分支路径;随后,选择累积得分较高的固定数量分支作为下一帧的新路径。在处理完最后一帧后,选取累积得分最高的路径作为最终的分割结果。得益于其启发式搜索设计,SAM2Long对遮挡和目标重新出现等复杂情况具有较强鲁棒性,能够有效实现复杂长时视频中目标的分割与跟踪。值得注意的是,在所有24组头对头对比实验中,SAM2Long平均提升3.0分,尤其在SA-V和LVOS等长时视频目标分割基准测试中,J&F指标最高提升达5.3分。相关代码已开源,地址为:https://github.com/Mark12Ding/SAM2Long。

代码仓库

mark12ding/sam2long
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-object-tracking-on-didiSAM2.1Long
Tracking quality: 0.646

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供