Benchmarking Chinese Text Recognition

Name: Benchmarking Chinese Text Recognition
Creator: 复旦大学智能信息处理上海市重点实验室
Published: 2022-11-25 20:03:17
License: 暂无描述

arXiv2022-11-25 更新2024-06-21 收录

下载链接：

https://github.com/FudanVI/benchmarking-chinese-text-recognition

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个名为‘Benchmarking Chinese Text Recognition’的综合数据集，旨在推动中文文本识别技术的发展。数据集由复旦大学智能信息处理上海市重点实验室团队收集，涵盖了场景、网页、文档和手写四大类别，总计636,455条数据。数据集通过公开竞赛、项目和论文中的数据手动收集，并根据应用场景进行了分类。此外，研究团队还标准化了中文文本识别的评估协议，并在统一的评估标准下，对一系列代表性文本识别方法进行了评估，以提供基准性能。数据集的应用领域广泛，包括自动驾驶、文档检索和签名识别等，旨在解决中文文本识别领域的关键问题，如缺乏合理的标准和统一的评估协议。

This study constructs a comprehensive dataset named 'Benchmarking Chinese Text Recognition' to advance the development of Chinese text recognition technologies. This dataset was collected by the team from the Shanghai Key Laboratory of Intelligent Information Processing, Fudan University, covering four major categories: scene, web, document, and handwritten, with a total of 636,455 data entries. The dataset was manually collected from publicly available data in competitions, projects, and academic papers, and classified according to application scenarios. Additionally, the research team standardized the evaluation protocols for Chinese text recognition, and evaluated a series of representative text recognition methods under the unified evaluation criteria to provide benchmark performance. The dataset has wide application scenarios, including autonomous driving, document retrieval, signature recognition and other fields, aiming to address the key challenges in the field of Chinese text recognition, such as the lack of reasonable standards and unified evaluation protocols.

提供机构：

复旦大学智能信息处理上海市重点实验室

创建时间：

2021-12-30

搜集汇总

数据集介绍

构建方式

在中文文本识别领域，数据集的构建长期缺乏统一标准。本数据集通过系统化收集公开竞赛、项目及论文中的中文文本图像，构建了一个综合性基准。构建过程首先从RCTW、ReCTS、LSVT、ArT、CTW等场景文本数据集中裁剪出文本区域图像，并整合MTWI网页文本、使用Text Render生成的合成文档文本以及SCUT-HCCDoc手写文本，形成总计超过百万样本的集合。随后，依据应用场景将数据严谨划分为场景、网页、文档与手写四大类别。为确保评估的公正性与严谨性，对每个类别数据集均按合理比例手动划分为训练集、验证集和测试集，并移除了标注为“###”的不可读样本，同时保留了包含其他语言的文本图像以反映真实场景分布。

使用方法

为促进中文文本识别研究的公平比较，该数据集配套了标准化的评估协议。在使用时，研究者需遵循统一的预处理与评估规则：预测结果与真实标签需进行字符转换，包括全角转半角、繁体转简体、大写字母转小写，并移除所有空格。评估指标主要采用准确率（Accuracy）和归一化编辑距离（Normalized Edit Distance），以全面衡量模型对长短文本的识别性能。数据集的划分确保了验证集的独立存在，要求模型超参数选择必须基于验证集性能，避免针对测试集进行调优。研究者可利用该基准评估各类文本识别方法（如基于CTC、基于矫正、基于注意力或Transformer的方法）在四类数据上的表现，分析模型在不同挑战（如遮挡、弯曲、背景干扰、模糊、垂直文本）下的鲁棒性。数据集的发布旨在为后续研究提供可靠的训练、验证与测试基础，并鼓励探索结合中文文字特性（如部首级监督）的改进方法。

背景与挑战

背景概述

在深度学习蓬勃发展的时代背景下，文本识别技术近年来取得了显著进展，然而现有方法主要针对英文文本设计。作为全球使用人数最多的语言，中文文本识别（CTR）在自动驾驶、文档检索等诸多领域拥有广阔的应用前景，却长期缺乏系统性的研究基准。为填补这一空白，复旦大学智能信息处理重点实验室的研究团队于2022年发布了《Benchmarking Chinese Text Recognition》数据集。该研究旨在通过整合来自公开竞赛、项目和论文的中文文本数据，构建一个标准化的评估基准，以推动中文文本识别领域的发展。数据集依据应用场景划分为自然场景、网络图像、文档和手写体四大类别，并提供了统一的评估协议与基线模型实验结果，为后续研究奠定了重要基础。

当前挑战

中文文本识别面临的核心挑战源于汉字本身的特性：其一，汉字字符集规模庞大（国家标准包含超过七万个字符），远超拉丁字母，导致模型面临大规模分类与零样本识别难题；其二，大量汉字字形高度相似，细微笔画差异即构成不同字符，对识别精度提出极高要求；其三，汉字文本常以短语或句子形式出现，具有复杂的序列依赖关系，且垂直排版文本较为常见，增加了序列模式学习的难度。在数据集构建过程中，研究者需应对多重挑战：包括缺乏统一的数据构建标准与评估协议，不同数据源在裁剪方法、字符处理（如简繁体转换、全半角区分）上存在差异；同时，需从异构数据中合理划分训练、验证与测试集，并处理图像中存在的遮挡、模糊、艺术字体及手写潦草等影响可识别性的噪声因素。

常用场景

经典使用场景

在中文文本识别领域，该数据集作为基准测试平台，为研究者提供了涵盖场景、网页、文档和手写四大类别的标准化评估环境。其经典使用场景在于系统性地评估各类文本识别模型在复杂中文环境下的性能表现，特别是在处理字形相似、字符量大、垂直文本及复杂内部结构等中文特有挑战时的鲁棒性。通过统一的数据预处理流程和评估协议，该数据集使得不同方法之间的公平比较成为可能，为算法优化提供了明确的性能参照。

解决学术问题

该数据集有效解决了中文文本识别领域长期存在的三大核心学术问题：缺乏合理的数据集构建标准、统一的评估协议以及可靠的基线模型实验结果。通过整合公开竞赛、项目和论文中的多源数据，并依据应用场景进行科学分类，该工作建立了规范化的数据划分与预处理流程。同时，它提出了涵盖全半角转换、繁简体归一化等细节的标准化评估协议，消除了以往研究中的评估不一致性，为领域建立了严谨的实验基准。

实际应用

在实际应用层面，该数据集支撑的技术可广泛应用于自动驾驶中的街景文字识别、文档数字化与检索、电子商务平台的广告文本理解以及手写文档的自动转录等多个关键场景。例如，在智慧城市管理中，基于该数据集训练的模型能够准确识别街道路牌、商业招牌中的中文信息；在金融领域，可辅助处理手写票据或合同文档；在互联网内容审核中，能高效识别网页图像中的多形态文本内容。这些应用显著提升了中文环境下信息提取的自动化水平与准确性。

数据集最近研究