6 个月前

计算机视觉

Chuanxia Zheng Tat-Jen Cham Jianfei Cai Dinh Phung

摘要

正确建模全局上下文交互对于大掩码下的高保真图像修复至关重要。以往通过深度网络或大感受野（Receptive Field, RF）卷积实现该目标的方法，难以摆脱邻近区域交互的主导影响，可能导致性能受限。本文提出将图像修复任务视为一种无方向性的序列到序列预测问题，并引入Transformer架构以在编码器中直接捕捉长程依赖关系。关键在于，我们采用一种感受野小且非重叠的约束性CNN来生成加权的图像标记表示，使Transformer能够在所有网络层中均等且显式地建模远距离可见上下文之间的关系，而不会因使用较大感受野而导致邻近标记的隐式混淆。为进一步提升可见区域与生成区域之间的外观一致性，本文提出一种新颖的注意力感知层（Attention-Aware Layer, AAL），以更有效地利用远距离相关高频特征。大量实验结果表明，所提方法在多个数据集上均显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Chuanxia Zheng Tat-Jen Cham Jianfei Cai Dinh Phung

摘要

正确建模全局上下文交互对于大掩码下的高保真图像修复至关重要。以往通过深度网络或大感受野（Receptive Field, RF）卷积实现该目标的方法，难以摆脱邻近区域交互的主导影响，可能导致性能受限。本文提出将图像修复任务视为一种无方向性的序列到序列预测问题，并引入Transformer架构以在编码器中直接捕捉长程依赖关系。关键在于，我们采用一种感受野小且非重叠的约束性CNN来生成加权的图像标记表示，使Transformer能够在所有网络层中均等且显式地建模远距离可见上下文之间的关系，而不会因使用较大感受野而导致邻近标记的隐式混淆。为进一步提升可见区域与生成区域之间的外观一致性，本文提出一种新颖的注意力感知层（Attention-Aware Layer, AAL），以更有效地利用远距离相关高频特征。大量实验结果表明，所提方法在多个数据集上均显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供