HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSolo++:让带有显式点的Transformer解码器独立完成多语言文本定位

Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao

摘要

端到端文本定位旨在将场景文本检测与识别整合到统一框架中。在设计高效文本定位器(spotter)时,如何处理这两个子任务之间的关系至关重要。尽管基于Transformer的方法消除了依赖启发式后处理的步骤,但仍面临子任务间协同不足以及训练效率低下的问题。此外,现有方法往往忽视了多语言文本定位的研究,而后者通常需要额外的文本书写系统识别任务。本文提出DeepSolo++,一种结构简洁的DETR类基线模型,其通过单一解码器,利用显式点(explicit points)实现文本检测、识别与书写系统识别的联合建模。技术上,针对每个文本实例,我们将字符序列表示为有序点,并通过可学习的显式点查询进行建模。经过单一解码器处理后,这些点查询已编码了必要的文本语义与空间位置信息,进而可通过并行的简单预测头,直接解码出文本的中心线、边界框、书写系统类型及置信度。此外,我们展示了该方法在字符类别、语言类型和任务扩展性方面具有出色的可拓展性。一方面,该方法不仅在英文场景中表现优异,还能有效处理具有复杂字体结构和上千级字符类别的文本,例如中文;另一方面,相较于先前方法,DeepSolo++在引入的书写系统识别任务上取得了更优性能,且训练流程更为简洁。同时,我们的模型还兼容行级标注(line annotations),相较于多边形标注,显著降低了标注成本。相关代码已开源,地址为:\url{https://github.com/ViTAE-Transformer/DeepSolo}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供