6 个月前

摘要

近年来，基于Transformer的方法在场景文本检测中广受关注，这类方法通过预测多边形顶点或贝塞尔曲线控制点来实现文本定位。然而，这些基于检测Transformer框架的方法由于采用粗粒度的位置查询建模，可能导致训练效率和性能均不理想。此外，以往研究中采用的点标注形式隐含了人类的阅读顺序，根据我们的观察，这种形式会削弱检测的鲁棒性。为应对上述挑战，本文提出一种简洁高效的动态点文本检测Transformer网络，命名为DPText-DETR。具体而言，DPText-DETR直接利用显式的点坐标生成位置查询，并以渐进式方式动态更新这些查询。为进一步增强Transformer中非局部自注意力机制的空间归纳偏置，我们设计了一种增强型分解自注意力模块（Enhanced Factorized Self-Attention），为每个实例内的点查询提供环形结构引导。此外，我们提出一种简单而有效的新型位置标注形式，以缓解原有标注方式带来的副作用。为进一步评估不同标注形式在真实场景下对检测鲁棒性的影响，我们构建了一个名为Inverse-Text的测试集，包含500张人工标注的图像。大量实验结果表明，所提方法在主流基准数据集上具备高效的训练效率、优异的鲁棒性以及领先的检测性能。代码及Inverse-Text测试集已开源，地址为：https://github.com/ymy-k/DPText-DETR。

源 PDF