SCUT-HCCDoc

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/HCIILAB/SCUT-HCCDoc_Dataset_Release

下载链接

链接失效反馈

官方服务：

资源简介：

SCUT-HCCDoc数据集包含12,253张相机拍摄的自然图像，共有116,629行文本和1,155,801个字符。根据不同的应用场景，SCUT-HCCDoc可以大致分为五个子集：HCCDoc-WT（传统汉字图像）、HCCDoc-WS（简化汉字图像，无格式背景）、HCCDoc-WSF（简化汉字图像，有格式背景）、HCCDoc-SN（学生笔记图像）、HCCDoc-EP（考试试卷图像）。数据集展示了图像、文本和字符三个层次的多样性，适用于离线手写中文文本识别研究。

The SCUT-HCCDoc dataset comprises 12,253 natural images captured by cameras, containing a total of 116,629 lines of text and 1,155,801 characters. Depending on the application scenarios, SCUT-HCCDoc can be broadly categorized into five subsets: HCCDoc-WT (Traditional Chinese character images), HCCDoc-WS (Simplified Chinese character images without formatted backgrounds), HCCDoc-WSF (Simplified Chinese character images with formatted backgrounds), HCCDoc-SN (Student note images), and HCCDoc-EP (Exam paper images). The dataset demonstrates diversity at three levels—images, text, and characters—and is suitable for research in offline handwritten Chinese text recognition.

创建时间：

2020-07-22

原始信息汇总

SCUT-HCCDoc数据集概述

数据集基本信息

名称: SCUT-HCCDoc
用途: 用于离线手写中文文本识别（HCTR）研究
包含内容: 12,253张相机拍摄的自然图像，包含116,629个文本行和1,155,801个字符
下载链接:
- Baidu Cloud (密码: dlvc, 大小: 2G)
- OneDrive

数据集子集

HCCDoc-WT: 传统中文字符图像
HCCDoc-WS: 无格式背景的简体中文字符图像
HCCDoc-WSF: 有格式背景的简体中文字符图像
HCCDoc-SN: 学生笔记图像
HCCDoc-EP: 考试试卷图像

数据集特点

图像级多样性: 包括视角、背景、分辨率等引起的图像外观和几何变化，以及不同应用场景（如笔记、试卷、作业）的差异。
文本级多样性: 文本行长度的变化、旋转等。
字符级多样性: 字符类别（多达6,109类，含英文字母和数字）、字符大小、个人书写风格等的差异。

使用条件

非商业研究目的: 使用前需填写申请表并发送至eelwjin@scut.edu.cn。
商业用途: 2022年12月起不再接受免费使用请求，需联系Dr. Jin申请。

引用信息

论文引用:

@article{zhang2020scut, title={SCUT-HCCDoc: A New Benchmark Dataset of Handwritten Chinese Text in Unconstrained Camera-captured Documents}, author={Zhang, Hesuo and Liang, Lingyu and Jin, Lianwen}, journal={Pattern Recognition}, pages={107559}, year={2020}, publisher={Elsevier} }

联系信息

问题咨询: 通过电子邮件联系Prof. Jin (eelwjin@scut.edu.cn)。

搜集汇总

数据集介绍

构建方式

SCUT-HCCDoc数据集由华南理工大学深度学习与视觉计算实验室构建，旨在为离线手写中文文本识别（HCTR）研究提供高质量的相机捕获文档图像。该数据集包含12,253张自然图像，涵盖116,629条文本行和1,155,801个字符，分为五个子集：传统汉字图像、无格式背景的简体汉字图像、有格式背景的简体汉字图像、学生笔记图像和考试试卷图像。数据集的构建通过从互联网搜索和下载图像，并进行标注和分类，确保了图像的多层次多样性，包括图像外观、文本行长度和字符类别等。

特点

SCUT-HCCDoc数据集的显著特点在于其多层次的多样性。图像层面，数据集包含了因相机捕获设置和不同应用场景（如笔记、试卷等）导致的图像外观和几何变化。文本层面，数据集涵盖了文本行长度的变化和旋转等特征。字符层面，数据集包含了多达6,109个类别的字符，包括英文字母和数字，以及不同书写风格和字符大小的变化。此外，数据集还提供了详细的字符实例统计，展示了最常见的50个字符类别。

使用方法

背景与挑战

背景概述

SCUT-HCCDoc数据集由华南理工大学深度学习与视觉计算实验室发布，专注于离线手写中文文本识别（HCTR）在摄像捕获文档图像中的研究。该数据集包含12,253张自然图像，涵盖116,629行文本和1,155,801个字符，分为五个子集：传统汉字、简体汉字（无格式背景）、简体汉字（有格式背景）、学生笔记和考试试卷。SCUT-HCCDoc的创建旨在解决手写中文文本识别中的多样性和复杂性问题，特别是通过图像、文本和字符三个层次的多样性来模拟真实场景中的挑战。该数据集的发布为手写中文文本识别领域的研究提供了宝贵的资源，推动了相关技术的进步。

当前挑战

SCUT-HCCDoc数据集在构建和应用过程中面临多项挑战。首先，图像级别的多样性，包括由摄像捕获设置引起的透视、背景和分辨率变化，以及不同应用场景（如笔记、试卷等）带来的几何差异，增加了识别的复杂性。其次，文本级别的多样性，如文本行长、旋转等变化，对模型的鲁棒性提出了更高要求。最后，字符级别的多样性，包括字符类别、大小和书写风格的差异，进一步增加了识别任务的难度。此外，数据集的构建过程中还需处理版权问题和确保数据的合法使用，这对数据集的管理和分发提出了额外的挑战。

常用场景

经典使用场景

SCUT-HCCDoc数据集在离线手写中文文本识别（HCTR）领域中具有广泛的应用，尤其是在相机捕获的文档图像处理方面。该数据集包含了12,253张自然图像，涵盖了116,629行文本和1,155,801个字符，适用于多种场景，如传统汉字识别、简体汉字识别、学生笔记和考试试卷的识别等。其多样化的图像、文本和字符级别的特征使其成为研究手写中文文本识别的理想选择。

解决学术问题

SCUT-HCCDoc数据集解决了手写中文文本识别中的多个学术问题，包括复杂背景下的文本识别、不同书写风格的字符识别以及长文本图像的处理等。通过提供多样化的数据样本，该数据集有助于推动手写中文文本识别技术的发展，特别是在非约束性环境下的应用，为学术界提供了丰富的研究素材和基准测试数据。

衍生相关工作

基于SCUT-HCCDoc数据集，许多研究工作得以展开，包括但不限于手写中文文本识别算法的改进、多模态数据融合技术、以及深度学习模型在文本识别中的应用。这些研究不仅提升了识别精度，还推动了相关领域的技术进步，为后续的研究和应用奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集