HyperAIHyperAI

Command Palette

Search for a command to run...

DPText-DETR:基于Transformer中动态点的更优场景文本检测

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Bo Du Dacheng Tao

摘要

近年来,基于Transformer的方法在场景文本检测中广受关注,这类方法通过预测多边形顶点或贝塞尔曲线控制点来实现文本定位。然而,这些基于检测Transformer框架的方法由于采用粗粒度的位置查询建模,可能导致训练效率和性能均不理想。此外,以往研究中采用的点标注形式隐含了人类的阅读顺序,根据我们的观察,这种形式会削弱检测的鲁棒性。为应对上述挑战,本文提出一种简洁高效的动态点文本检测Transformer网络,命名为DPText-DETR。具体而言,DPText-DETR直接利用显式的点坐标生成位置查询,并以渐进式方式动态更新这些查询。为进一步增强Transformer中非局部自注意力机制的空间归纳偏置,我们设计了一种增强型分解自注意力模块(Enhanced Factorized Self-Attention),为每个实例内的点查询提供环形结构引导。此外,我们提出一种简单而有效的新型位置标注形式,以缓解原有标注方式带来的副作用。为进一步评估不同标注形式在真实场景下对检测鲁棒性的影响,我们构建了一个名为Inverse-Text的测试集,包含500张人工标注的图像。大量实验结果表明,所提方法在主流基准数据集上具备高效的训练效率、优异的鲁棒性以及领先的检测性能。代码及Inverse-Text测试集已开源,地址为:https://github.com/ymy-k/DPText-DETR


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供