SCUT-HCCDoc
收藏github2024-05-17 更新2024-05-31 收录
下载链接:
https://github.com/HCIILAB/SCUT-HCCDoc_Dataset_Release
下载链接
链接失效反馈官方服务:
资源简介:
SCUT-HCCDoc数据集包含12,253张相机拍摄的自然图像,共有116,629行文本和1,155,801个字符。根据不同的应用场景,SCUT-HCCDoc可以大致分为五个子集:HCCDoc-WT(传统汉字图像)、HCCDoc-WS(简化汉字图像,无格式背景)、HCCDoc-WSF(简化汉字图像,有格式背景)、HCCDoc-SN(学生笔记图像)、HCCDoc-EP(考试试卷图像)。数据集展示了图像、文本和字符三个层次的多样性,适用于离线手写中文文本识别研究。
The SCUT-HCCDoc dataset comprises 12,253 natural images captured by cameras, containing a total of 116,629 lines of text and 1,155,801 characters. Depending on the application scenarios, SCUT-HCCDoc can be broadly categorized into five subsets: HCCDoc-WT (Traditional Chinese character images), HCCDoc-WS (Simplified Chinese character images without formatted backgrounds), HCCDoc-WSF (Simplified Chinese character images with formatted backgrounds), HCCDoc-SN (Student note images), and HCCDoc-EP (Exam paper images). The dataset demonstrates diversity at three levels—images, text, and characters—and is suitable for research in offline handwritten Chinese text recognition.
创建时间:
2020-07-22
原始信息汇总
SCUT-HCCDoc数据集概述
数据集基本信息
- 名称: SCUT-HCCDoc
- 用途: 用于离线手写中文文本识别(HCTR)研究
- 包含内容: 12,253张相机拍摄的自然图像,包含116,629个文本行和1,155,801个字符
- 下载链接:
- Baidu Cloud (密码: dlvc, 大小: 2G)
- OneDrive
数据集子集
- HCCDoc-WT: 传统中文字符图像
- HCCDoc-WS: 无格式背景的简体中文字符图像
- HCCDoc-WSF: 有格式背景的简体中文字符图像
- HCCDoc-SN: 学生笔记图像
- HCCDoc-EP: 考试试卷图像
数据集特点
- 图像级多样性: 包括视角、背景、分辨率等引起的图像外观和几何变化,以及不同应用场景(如笔记、试卷、作业)的差异。
- 文本级多样性: 文本行长度的变化、旋转等。
- 字符级多样性: 字符类别(多达6,109类,含英文字母和数字)、字符大小、个人书写风格等的差异。
使用条件
- 非商业研究目的: 使用前需填写申请表并发送至eelwjin@scut.edu.cn。
- 商业用途: 2022年12月起不再接受免费使用请求,需联系Dr. Jin申请。
引用信息
-
论文引用:
@article{zhang2020scut, title={SCUT-HCCDoc: A New Benchmark Dataset of Handwritten Chinese Text in Unconstrained Camera-captured Documents}, author={Zhang, Hesuo and Liang, Lingyu and Jin, Lianwen}, journal={Pattern Recognition}, pages={107559}, year={2020}, publisher={Elsevier} }
联系信息
- 问题咨询: 通过电子邮件联系Prof. Jin (eelwjin@scut.edu.cn)。
搜集汇总
数据集介绍

构建方式
SCUT-HCCDoc数据集由华南理工大学深度学习与视觉计算实验室构建,旨在为离线手写中文文本识别(HCTR)研究提供高质量的相机捕获文档图像。该数据集包含12,253张自然图像,涵盖116,629条文本行和1,155,801个字符,分为五个子集:传统汉字图像、无格式背景的简体汉字图像、有格式背景的简体汉字图像、学生笔记图像和考试试卷图像。数据集的构建通过从互联网搜索和下载图像,并进行标注和分类,确保了图像的多层次多样性,包括图像外观、文本行长度和字符类别等。
特点
SCUT-HCCDoc数据集的显著特点在于其多层次的多样性。图像层面,数据集包含了因相机捕获设置和不同应用场景(如笔记、试卷等)导致的图像外观和几何变化。文本层面,数据集涵盖了文本行长度的变化和旋转等特征。字符层面,数据集包含了多达6,109个类别的字符,包括英文字母和数字,以及不同书写风格和字符大小的变化。此外,数据集还提供了详细的字符实例统计,展示了最常见的50个字符类别。
使用方法
SCUT-HCCDoc数据集主要用于非商业研究目的,研究者需填写申请表并通过电子邮件提交至指定地址,审核通过后可获得解压密码。数据集适用于手写中文文本识别、文档图像处理等领域的研究,提供了最新的文本识别基线结果,研究者可根据需要调整输入图像的尺寸和网络结构。数据集的使用需遵循相关版权声明,若涉及侵权图像,需及时联系数据集提供方进行处理。
背景与挑战
背景概述
SCUT-HCCDoc数据集由华南理工大学深度学习与视觉计算实验室发布,专注于离线手写中文文本识别(HCTR)在摄像捕获文档图像中的研究。该数据集包含12,253张自然图像,涵盖116,629行文本和1,155,801个字符,分为五个子集:传统汉字、简体汉字(无格式背景)、简体汉字(有格式背景)、学生笔记和考试试卷。SCUT-HCCDoc的创建旨在解决手写中文文本识别中的多样性和复杂性问题,特别是通过图像、文本和字符三个层次的多样性来模拟真实场景中的挑战。该数据集的发布为手写中文文本识别领域的研究提供了宝贵的资源,推动了相关技术的进步。
当前挑战
SCUT-HCCDoc数据集在构建和应用过程中面临多项挑战。首先,图像级别的多样性,包括由摄像捕获设置引起的透视、背景和分辨率变化,以及不同应用场景(如笔记、试卷等)带来的几何差异,增加了识别的复杂性。其次,文本级别的多样性,如文本行长、旋转等变化,对模型的鲁棒性提出了更高要求。最后,字符级别的多样性,包括字符类别、大小和书写风格的差异,进一步增加了识别任务的难度。此外,数据集的构建过程中还需处理版权问题和确保数据的合法使用,这对数据集的管理和分发提出了额外的挑战。
常用场景
经典使用场景
SCUT-HCCDoc数据集在离线手写中文文本识别(HCTR)领域中具有广泛的应用,尤其是在相机捕获的文档图像处理方面。该数据集包含了12,253张自然图像,涵盖了116,629行文本和1,155,801个字符,适用于多种场景,如传统汉字识别、简体汉字识别、学生笔记和考试试卷的识别等。其多样化的图像、文本和字符级别的特征使其成为研究手写中文文本识别的理想选择。
解决学术问题
SCUT-HCCDoc数据集解决了手写中文文本识别中的多个学术问题,包括复杂背景下的文本识别、不同书写风格的字符识别以及长文本图像的处理等。通过提供多样化的数据样本,该数据集有助于推动手写中文文本识别技术的发展,特别是在非约束性环境下的应用,为学术界提供了丰富的研究素材和基准测试数据。
衍生相关工作
基于SCUT-HCCDoc数据集,许多研究工作得以展开,包括但不限于手写中文文本识别算法的改进、多模态数据融合技术、以及深度学习模型在文本识别中的应用。这些研究不仅提升了识别精度,还推动了相关领域的技术进步,为后续的研究和应用奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



