6 个月前

摘要

近年来，基于视觉Transformer（Vision Transformer）的低层视觉任务方法取得了广泛应用与显著成功。与基于卷积神经网络（CNN）的模型不同，Transformer在捕捉长距离依赖关系方面更具优势，能够利用非局部信息实现图像的高质量重建。在图像超分辨率领域，基于Swin Transformer的模型已成为主流，其凭借全局空间信息建模能力以及滑动窗口注意力机制，有效促进了不同窗口间的信息交互。许多研究者通过扩展感受野或设计精细的网络结构，显著提升了模型性能，取得了令人瞩目的成果。然而，我们观察到一个普遍现象：在网络深层，特征图的激活强度往往在接近输出端时突然被抑制至极小值。这一现象表明存在信息瓶颈，导致空间信息逐渐丢失，从而在隐性层面限制了模型的潜力。为解决该问题，本文提出一种密集残差连接的Transformer架构（Dense-Residual-Connected Transformer, DRCT），通过层间密集残差连接机制，有效缓解空间信息的损失，稳定信息流动，充分释放模型潜能，避免陷入信息瓶颈。实验结果表明，所提方法在多个基准数据集上均优于当前最先进的超分辨率技术，并在NTIRE-2024图像超分辨率（x4）挑战赛中表现优异。相关源代码已公开，可访问：https://github.com/ming053l/DRCT

源 PDF