HyperAIHyperAI

Command Palette

Search for a command to run...

解耦零样本语义分割

Jian Ding Nan Xue Gui-Song Xia Dengxin Dai

摘要

零样本语义分割(Zero-shot Semantic Segmentation, ZS3)旨在对训练阶段未见过的新类别进行分割。现有方法将ZS3建模为像素级的零样本分类问题,借助仅通过文本预训练的语言模型,将已见类别的语义知识迁移到未见类别。尽管该方法实现简单,但其在整合通常基于图像-文本对预训练、并在视觉任务中展现出巨大潜力的视觉-语言模型方面能力有限。受人类常以“语义段”为单位进行标注这一现象的启发,我们提出将ZS3解耦为两个子任务:(1)类别无关的分组任务,用于将像素聚类为语义段;(2)在语义段层面进行零样本分类。前者不依赖类别信息,可直接迁移至未见类别以实现像素分组;后者在段级别执行,为利用大规模图像-文本对预训练的视觉-语言模型(如CLIP)提供了自然且高效的途径,从而更好地融合视觉与语言先验知识。基于这一解耦范式,我们提出了一种简单而高效的零样本语义分割模型——ZegFormer。在标准ZS3基准测试中,该模型显著优于此前方法,例如在PASCAL VOC数据集上未见类别的mIoU提升达22个百分点,在COCO-Stuff数据集上提升3个百分点。代码将开源发布于:https://github.com/dingjiansw101/ZegFormer


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供