SCUT-EPT Dataset

github2024-04-27 更新2024-05-31 收录

下载链接：

https://github.com/HCIILAB/SCUT-EPT_Dataset_Release

下载链接

链接失效反馈

官方服务：

资源简介：

SCUT-EPT数据集包含50,000个文本行图像，用于离线手写中文文本识别（HCTR）研究，特别针对教育文档。数据集面临多种挑战，如字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字大小和不平衡文本长度。

The SCUT-EPT dataset comprises 50,000 line images of text, specifically designed for research in offline handwritten Chinese text recognition (HCTR), with a focus on educational documents. The dataset presents various challenges, including character erasures, text line supplementation, character/phrase switching, noisy backgrounds, non-uniform character sizes, and imbalanced text lengths.

创建时间：

2018-08-03

原始信息汇总

SCUT-EPT数据集概述

数据集基本信息

名称: SCUT-EPT Dataset
用途: 用于离线手写中文文本识别（HCTR）研究，特别是在教育文档中的应用。
数据量: 包含50,000个文本行图像，其中40,000个用于训练，10,000个用于测试。
来源: 选自2,986名志愿者的考试试卷。

数据集特点

挑战性: 数据集面临多种挑战，包括字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字号和不平衡文本长度。
字符类别: 总计4,250类，包括4,033个常用中文字符、104个符号和113个异常中文字符。
样本分布: 字符样本总数为1,267,161，平均每行文本约含25个字符。

数据集使用限制

使用目的: 仅限于非商业研究用途。
申请使用: 需填写申请表并通过电子邮件发送至指定邮箱，同时需提供近6年内的1-2篇相关研究领域的出版物。

数据集下载

下载链接:
- Baidu Cloud (密码: bk3x, 大小: 1.08GB)
- OneDrive

数据集样本分布

不平衡性: 41%的类别样本数少于10个，3%的类别样本数超过2000个。
典型样本: 展示了各级别的典型样本，符合日常使用频率。

图像特征

文本行图像宽度: 大部分样本（约70%）宽度在1,200至1,400像素之间。
文本行图像高度与宽度: 多数样本的高度范围为30至100像素，宽度主要分布在1,200至1,400像素。

实验结果

识别方法: 使用基于深度学习的seq-to-seq方法，取得了当前最先进的结果。

引用与联系

引用文献:

@article{zhu2018scut, title={SCUT-EPT: a New Dataset and Benchmark for Offline Chinese Text Recognition in Examination Paper}, author={Zhu, Yuanzhi and Xie, Zecheng and Jin, Lianwen and Chen, Xiaoxue and Huang, Yaoxiong and Zhang, Ming}, journal={IEEE Access}, year={2018}, publisher={IEEE} }
联系方式: 如有疑问，请联系Prof. Jin (eelwjin@scut.edu.cn)。

搜集汇总

数据集介绍

构建方式

SCUT-EPT数据集由华南理工大学深度学习与视觉计算实验室构建，专门用于离线手写中文文本识别（HCTR）研究。该数据集从2,986名志愿者的考试试卷中精选出50,000条文本行图像，其中40,000条用于训练，10,000条用于测试。数据集的构建过程中，特别考虑了考试试卷中常见的挑战，如字符擦除、文本行补充、字符/短语切换、噪声背景、不均匀字符大小和文本长度不平衡等问题。此外，训练集和测试集之间无重叠，确保了数据集的独立性。

特点

SCUT-EPT数据集具有显著的特点，包括其包含的4,250个类别，涵盖4,033个常用汉字、104个符号和113个异常汉字。数据集中的字符样本总数达到1,267,161个，每条文本行平均包含约25个字符。此外，数据集的类别分布极不均衡，其中41%的类别样本少于10个，而3%的类别样本超过2,000个。这种不均衡性为识别系统带来了潜在的挑战。

使用方法

SCUT-EPT数据集主要用于非商业研究目的，研究者需填写申请表并通过电子邮件提交，待审核通过后可获得解压密码。数据集适用于OCR、手写分析与识别、文档图像处理等领域的研究。研究者在使用数据集时，应引用相关文献，并可通过电子邮件与数据集的维护者联系以获取更多信息或商业许可。

背景与挑战

背景概述

SCUT-EPT数据集由华南理工大学深度学习与视觉计算实验室发布，专门用于离线手写中文文本识别（HCTR）在教育文档中的研究。该数据集包含50,000条文本行图像，选自2,986名志愿者的考试试卷，分为40,000条训练图像和10,000条测试图像。SCUT-EPT数据集不仅涵盖了传统HCTR中的常见问题，还引入了考试试卷特有的挑战，如字符擦除、文本行补充、字符/短语切换、噪声背景、不均匀字符大小和文本长度不平衡等。该数据集的发布为手写中文文本识别领域的研究提供了新的基准，并推动了相关技术的发展。

当前挑战

SCUT-EPT数据集在构建过程中面临多项挑战。首先，考试试卷中的字符擦除、文本行补充和字符/短语切换等现象增加了识别的复杂性。其次，噪声背景和不均匀字符大小使得模型在处理不同类型的文本时需具备更高的适应性。此外，文本长度不平衡问题导致数据集中的类别分布极不均衡，部分类别样本过少，可能影响识别系统的泛化能力。这些挑战不仅反映了实际应用中的复杂性，也对模型的鲁棒性和准确性提出了更高的要求。

常用场景

经典使用场景

SCUT-EPT数据集在离线手写中文文本识别（HCTR）研究中具有经典应用场景，尤其在教育文档中的手写文本识别任务中表现突出。该数据集包含了50,000条文本行图像，涵盖了40,000条训练数据和10,000条测试数据，来源于2,986名志愿者的考试试卷。这些数据不仅涵盖了常见的手写中文识别问题，还引入了考试试卷中特有的挑战，如字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字符大小和不平衡文本长度等。这些特性使得SCUT-EPT数据集成为研究复杂手写文本识别问题的理想选择。

衍生相关工作

SCUT-EPT数据集的发布激发了大量相关研究工作，尤其是在手写中文文本识别和文档图像处理领域。许多研究者基于该数据集开发了新的深度学习模型，如序列到序列模型，以提升识别性能。此外，该数据集还促进了对手写文本中特殊挑战的研究，如字符擦除和噪声背景的处理。这些研究不仅推动了手写文本识别技术的发展，也为其他相关领域的研究提供了宝贵的参考。

数据集最近研究