6 个月前

摘要

零样本语义分割（Zero-shot Semantic Segmentation, ZS3）旨在对训练阶段未见过的新类别进行分割。现有方法将ZS3建模为像素级的零样本分类问题，借助仅通过文本预训练的语言模型，将已见类别的语义知识迁移到未见类别。尽管该方法实现简单，但其在整合通常基于图像-文本对预训练、并在视觉任务中展现出巨大潜力的视觉-语言模型方面能力有限。受人类常以“语义段”为单位进行标注这一现象的启发，我们提出将ZS3解耦为两个子任务：（1）类别无关的分组任务，用于将像素聚类为语义段；（2）在语义段层面进行零样本分类。前者不依赖类别信息，可直接迁移至未见类别以实现像素分组；后者在段级别执行，为利用大规模图像-文本对预训练的视觉-语言模型（如CLIP）提供了自然且高效的途径，从而更好地融合视觉与语言先验知识。基于这一解耦范式，我们提出了一种简单而高效的零样本语义分割模型——ZegFormer。在标准ZS3基准测试中，该模型显著优于此前方法，例如在PASCAL VOC数据集上未见类别的mIoU提升达22个百分点，在COCO-Stuff数据集上提升3个百分点。代码将开源发布于：https://github.com/dingjiansw101/ZegFormer。

源 PDF