6 个月前

摘要

端到端文本定位旨在将场景文本检测与识别整合到统一框架中。在设计高效文本定位器（spotter）时，如何处理这两个子任务之间的关系至关重要。尽管基于Transformer的方法消除了依赖启发式后处理的步骤，但仍面临子任务间协同不足以及训练效率低下的问题。此外，现有方法往往忽视了多语言文本定位的研究，而后者通常需要额外的文本书写系统识别任务。本文提出DeepSolo++，一种结构简洁的DETR类基线模型，其通过单一解码器，利用显式点（explicit points）实现文本检测、识别与书写系统识别的联合建模。技术上，针对每个文本实例，我们将字符序列表示为有序点，并通过可学习的显式点查询进行建模。经过单一解码器处理后，这些点查询已编码了必要的文本语义与空间位置信息，进而可通过并行的简单预测头，直接解码出文本的中心线、边界框、书写系统类型及置信度。此外，我们展示了该方法在字符类别、语言类型和任务扩展性方面具有出色的可拓展性。一方面，该方法不仅在英文场景中表现优异，还能有效处理具有复杂字体结构和上千级字符类别的文本，例如中文；另一方面，相较于先前方法，DeepSolo++在引入的书写系统识别任务上取得了更优性能，且训练流程更为简洁。同时，我们的模型还兼容行级标注（line annotations），相较于多边形标注，显著降低了标注成本。相关代码已开源，地址为：\url{https://github.com/ViTAE-Transformer/DeepSolo}。

源 PDF