SCUT-EPT

github2018-12-14 更新2024-05-31 收录

下载链接：

https://github.com/scutyuanzhi/SCUT-EPT_Dataset_Release

下载链接

链接失效反馈

官方服务：

资源简介：

SCUT-EPT数据集包含50,000个文本行图像，用于离线手写中文文本识别（HCTR）研究，特别针对教育文档。数据集面临多种挑战，如字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字号和不平衡文本长度。数据集由华南理工大学深度学习和视觉计算实验室发布，仅供非商业研究用途。

The SCUT-EPT dataset comprises 50,000 line images of text, specifically designed for research in offline handwritten Chinese text recognition (HCTR), with a focus on educational documents. The dataset presents various challenges, including character erasures, text line supplementation, character/phrase switching, noisy backgrounds, non-uniform font sizes, and imbalanced text lengths. It was released by the Deep Learning and Visual Computing Laboratory at South China University of Technology and is intended solely for non-commercial research purposes.

创建时间：

2018-12-14

原始信息汇总

SCUT-EPT数据集概述

数据集基本信息

名称: SCUT-EPT
来源: 华南理工大学深度学习与视觉计算实验室
用途: 用于离线手写中文文本识别（HCTR）研究，特别是教育文档中的应用
下载链接: SCUT-EPT (密码: 2b1c, 大小: 1.04GB)
使用限制: 仅限非商业研究目的

数据集内容

图像数量: 50,000张文本行图像
- 训练集: 40,000张
- 测试集: 10,000张
来源: 来自2,986名志愿者的考试试卷
挑战: 包含字符擦除、文本行补充、字符/短语切换、噪声背景、非均匀字号和不平衡文本长度等特点

数据集特征

类别数量: 4,250类
- 常用汉字: 4,033个
- 符号: 104个
- 异常汉字: 113个
字符样本总数: 1,267,161个
平均每行字符数: 约25个字符

数据集分布

类别分布: 极不平衡，41%的类别样本数少于10个，3%的类别样本数超过2000个
图像尺寸分布: 宽度主要集中在1,200至1,400像素，高度主要在30至100像素

实验结果

识别方法: 基于深度学习的seq-to-seq方法，该方法在SCUT-EPT数据集上达到最先进水平

联系方式

问题咨询: 可通过电子邮件联系Yuanzhi Zhu (z.yuanzhi@foxmail.com) 或 Zecheng Xie (xiezcheng@foxmail.com) 或 Prof. Jin (eelwjin@scut.edu.cn)

搜集汇总

数据集介绍

构建方式

SCUT-EPT数据集的构建，是基于从2986名志愿者的试卷中筛选出的5万条文本线图像，其中4万条用于训练，1万条用于测试。该数据集不仅涵盖了手写中文文本识别的常见问题，还特别针对试卷中的字符擦除、文本线补充、字符/短语切换、噪声背景、非均匀字词大小和文本长度不平衡等新颖挑战进行了数据采集和处理。

使用方法

使用SCUT-EPT数据集时，用户需遵循非商业性研究使用的原则。数据集可通过提供的链接下载，并包含了详细的样本分布和类别分布信息。用户在开展手写中文文本识别研究时，可依据数据集中的训练集和测试集进行模型的训练和评估。同时，数据集的官方论文中提供了基于深度学习的序列到序列方法在SCUT-EPT上的实验结果，可供参考和比较。

背景与挑战

背景概述

SCUT-EPT数据集，由华南理工大学深度学习与视觉计算实验室发布，旨在推进教育文档中手写中文文本识别的研究。该数据集的创建，汇聚了2986名志愿者的考试卷纸，包含5万条文本线图像，其中训练集4万条，测试集1万条。SCUT-EPT数据集的构建，不仅覆盖了手写中文文本识别的常见问题，还特别关注了考试卷纸中的特殊挑战，如字符擦除、文本行补充、字符/短语切换等。该数据集的发布，为相关领域的研究提供了宝贵的资源，并在手写文本识别技术发展中占据了一席之地。

当前挑战

SCUT-EPT数据集在构建过程中，面临了多种挑战。首先，考试卷纸中的手写文本存在字符擦除、文本行补充等现象，这些情况在手写文本识别中较为罕见。其次，数据集中的背景噪声复杂，字符大小不均匀，文本长度不一，这些因素增加了识别的难度。此外，数据集的类别分布极度不平衡，部分类别样本数量稀少，这给识别系统的训练和评估带来了挑战。为了应对这些挑战，研究团队采用了先进的深度学习技术，并在数据集构建上做出了诸多创新，以期望提升手写文本识别的准确性和鲁棒性。

常用场景

经典使用场景

在教育文档的离线手写中文文本识别研究领域，SCUT-EPT数据集提供了一个独特的资源。该数据集广泛应用于开发与评估手写文本识别系统，特别是在处理考试卷中的文本识别任务时，其包含的多样化和挑战性样本，为算法的训练和测试提供了坚实基础。

解决学术问题

SCUT-EPT数据集有效解决了手写文本识别中的几个关键问题，包括字符擦除、文本行补充、字符/短语切换、噪声背景、不均匀的字词大小和文本长度不一等。这些问题在真实考试卷中尤为常见，该数据集为研究这些问题的解决方案提供了宝贵的实验基础，对于提升识别系统的准确性和鲁棒性具有重要价值。

实际应用

在实际应用中，SCUT-EPT数据集可用于改进教育领域的文本自动评分系统、学生作业自动批改系统，以及开发更精确的手写笔记识别应用。它有助于提升教育信息化水平，减轻教师工作负担，提高学习效率。

数据集最近研究