HyperAIHyperAI

Command Palette

Search for a command to run...

开放词汇全景分割与文本到图像扩散模型

Jiarui Xu extsuperscript1 hanksJiarui Xu was an intern at NVIDIA during the project. Sifei Liu extsuperscript2 hanksequal contribution. Arash Vahdat extsuperscript2 Wonmin Byeon extsuperscript2 Xiaolong Wang extsuperscript1 Shalini De Mello extsuperscript2

摘要

我们介绍了ODISE:开放词汇扩散基础全景分割(Open-vocabulary DIffusion-based panoptic SEgmentation),该方法通过统一预训练的文本-图像扩散模型和判别模型来实现开放词汇全景分割。文本到图像的扩散模型具有生成高质量图像并附带多样化的开放词汇语言描述的显著能力,这表明其内部表示空间与现实世界中的开放概念高度相关。另一方面,像CLIP这样的文本-图像判别模型在将图像分类为开放词汇标签方面表现出色。我们利用这两种模型的冻结内部表示来进行野外任何类别的全景分割。我们的方法在这两个开放词汇全景分割和语义分割任务上均大幅超越了先前的最先进水平。特别是仅使用COCO数据集进行训练的情况下,我们的方法在ADE20K数据集上实现了23.4%的PQ(全景质量)和30.0%的mIoU(平均交并比),相比之前的最先进水平分别提高了8.3%的PQ和7.9%的mIoU。我们在https://github.com/NVlabs/ODISE 开源了我们的代码和模型。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供