SCUT-EPT Dataset
收藏github2021-07-29 更新2024-05-31 收录
下载链接:
https://github.com/lufo816/SCUT-EPT_Dataset_Release
下载链接
链接失效反馈官方服务:
资源简介:
SCUT-EPT数据集包含50,000个文本行图像,用于教育文档中的离线手写中文文本识别研究。数据集面临多种挑战,如字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字大小和不平衡文本长度。此外,数据集包含4,250个类别,包括4,033个常用汉字、104个符号和113个异常汉字。
The SCUT-EPT dataset comprises 50,000 text line images, designed for research in offline handwritten Chinese text recognition within educational documents. The dataset presents various challenges, including character erasure, text line supplementation, character/phrase switching, noisy backgrounds, non-uniform character sizes, and imbalanced text lengths. Additionally, the dataset encompasses 4,250 categories, consisting of 4,033 commonly used Chinese characters, 104 symbols, and 113 anomalous Chinese characters.
创建时间:
2019-01-16
原始信息汇总
SCUT-EPT数据集概述
数据集基本信息
- 名称: SCUT-EPT
- 目的: 用于离线手写中文文本识别(HCTR)研究,特别是在教育文档中的应用。
- 来源: 由华南理工大学深度学习和视觉计算实验室发布。
- 下载链接:
- Baidu Cloud (密码: bk3x, 大小: 1.08GB)
- OneDrive
- 使用限制: 仅限于非商业研究目的。使用前需填写申请表并获得批准。
数据集内容
- 样本数量: 包含50,000个文本行图像,其中40,000个用于训练,10,000个用于测试。
- 来源: 选自2,986名志愿者的考试试卷。
- 挑战: 包括字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字号和不平衡文本长度等。
- 类别数量: 总计4,250类,包括4,033个常用汉字、104个符号和113个异常汉字。
- 样本分布: 类别分布极不平衡,41%的类别样本数少于10个,3%的类别样本数超过2000个。
图像特征
- 文本行图像形状: 宽度在1,200至1,400像素的图像占大多数(约70%),高度范围为30至100像素。
- 训练与测试集分布: 训练集和测试集的样本分布相似。
实验结果
- 识别方法: 采用基于深度学习的seq-to-seq方法,取得了当前最先进的结果。
联系方式
- 问题咨询: 可通过电子邮件联系Yuanzhi Zhu (z.yuanzhi@foxmail.com), Zecheng Xie (xiezcheng@foxmail.com) 或 Prof. Jin (eelwjin@scut.edu.cn)。
引用信息
@article{zhu2018scut, title={SCUT-EPT: a New Dataset and Benchmark for Offline Chinese Text Recognition in Examination Paper}, author={Zhu, Yuanzhi and Xie, Zecheng and Jin, Lianwen and Chen, Xiaoxue and Huang, Yaoxiong and Zhang, Ming}, journal={IEEE Access}, year={2018}, publisher={IEEE} }
搜集汇总
数据集介绍

构建方式
SCUT-EPT数据集由华南理工大学深度学习与视觉计算实验室发布,专门用于离线手写中文文本识别(HCTR)研究。该数据集从2,986名志愿者的考试试卷中精选出50,000条文本行图像,其中40,000条用于训练,10,000条用于测试。数据集的构建过程中,特别考虑了考试试卷中常见的挑战,如字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字符大小和不平衡文本长度等问题。
特点
SCUT-EPT数据集的显著特点在于其多样性和复杂性。数据集包含4,250个类别,其中包括4,033个常用汉字、104个符号和113个异常汉字。数据集中的字符样本总数达到1,267,161个,每条文本行平均包含约25个字符。此外,数据集的类别分布极不均衡,部分类别样本极少,而部分类别则拥有超过两千个样本,这种不均衡性为识别系统带来了潜在的挑战。
使用方法
SCUT-EPT数据集主要用于非商业研究目的,用户需填写申请表并通过电子邮件发送至指定地址,获得批准后可获取解压密码。数据集适用于基于深度学习的序列到序列方法的手写中文文本识别研究。用户可通过百度云或OneDrive下载数据集,并在研究中引用相关文献以确保学术规范。
背景与挑战
背景概述
SCUT-EPT数据集由华南理工大学深度学习与视觉计算实验室发布,专门用于离线手写中文文本识别(HCTR)研究,特别是在教育文档中的应用。该数据集包含50,000条文本行图像,其中40,000条用于训练,10,000条用于测试,这些数据选自2,986名志愿者的考试试卷。SCUT-EPT数据集不仅涵盖了HCTR中的常见问题,还引入了考试试卷特有的挑战,如字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字符大小和不平衡文本长度等。该数据集的发布为手写中文文本识别领域提供了新的研究方向,并推动了相关技术的进步。
当前挑战
SCUT-EPT数据集在构建过程中面临多项挑战。首先,考试试卷中的字符擦除、文本行补充和字符/短语切换等现象增加了识别的复杂性。其次,噪声背景和非均匀字符大小使得模型需要处理更多样化的输入。此外,不平衡的文本长度和字符样本分布不均也为模型的训练和评估带来了困难。这些挑战不仅要求模型具有高度的适应性和鲁棒性,还需要研究者开发新的算法来有效处理这些复杂情况。
常用场景
经典使用场景
SCUT-EPT数据集在离线手写中文文本识别(HCTR)研究中具有经典应用场景,尤其在教育文档中的手写文本识别任务中表现突出。该数据集包含了50,000张文本行图像,涵盖了40,000张训练图像和10,000张测试图像,这些图像选自2,986名志愿者的考试试卷。通过该数据集,研究者可以针对手写中文文本中的字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字符大小和不平衡文本长度等复杂问题进行深入研究。
解决学术问题
SCUT-EPT数据集解决了手写中文文本识别领域中的多个学术研究问题,特别是在教育文档中的复杂文本识别挑战。该数据集不仅涵盖了常见的字符识别问题,还引入了考试试卷中特有的字符擦除、文本行补充等复杂情况,为研究者提供了丰富的实验数据。通过这些数据,研究者可以开发和验证新的识别算法,提升手写中文文本识别的准确性和鲁棒性,对学术界在HCTR领域的研究具有重要意义。
衍生相关工作
SCUT-EPT数据集的发布催生了一系列相关研究工作,特别是在深度学习和手写文本识别领域。基于该数据集,研究者们开发了多种先进的序列到序列(seq-to-seq)方法,用于解决手写中文文本识别中的复杂问题。此外,该数据集还激发了对手写文本识别系统鲁棒性和泛化能力的研究,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成



