five

Teklia/CASIA-HWDB2-line

收藏
Hugging Face2024-03-14 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Teklia/CASIA-HWDB2-line
下载链接
链接失效反馈
官方服务:
资源简介:
CASIA-HWDB2-line数据集是一个关于中文手写文本的图像到文本数据集,由中国科学院自动化研究所的模式识别国家重点实验室(NLPR)构建。该数据集包含了1020位书写者使用Anoto笔在纸上书写的手写样本,这些样本既包括在线数据也包括离线数据。所有图像都被调整为固定的128像素高度。数据集包含训练集、验证集和测试集,分别有33401、8318和10441个样本。数据集的主要用途是手写文本识别(HTR)、光学字符识别(OCR)等任务。

CASIA-HWDB2-line数据集是一个关于中文手写文本的图像到文本数据集,由中国科学院自动化研究所的模式识别国家重点实验室(NLPR)构建。该数据集包含了1020位书写者使用Anoto笔在纸上书写的手写样本,这些样本既包括在线数据也包括离线数据。所有图像都被调整为固定的128像素高度。数据集包含训练集、验证集和测试集,分别有33401、8318和10441个样本。数据集的主要用途是手写文本识别(HTR)、光学字符识别(OCR)等任务。
提供机构:
Teklia
原始信息汇总

CASIA-HWDB2 - line level 数据集概述

数据集描述

数据集摘要

CASIA-HWDB2 是由中国科学院自动化研究所(CASIA)模式识别国家实验室(NLPR)构建的离线中文手写数据库。该数据库包含1,020位作者使用Anoto笔在纸上书写的手写样本,从而同时获得了在线和离线数据。所有图像都被调整为固定高度128像素。

语言

数据集中的所有文档均为中文书写。

数据集结构

数据实例

数据实例包含以下字段: json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1244x128 at 0x1A800E8E190>, "text": "2007年高校招生录取工作即将陆续展开,教育部有关负责人" }

数据字段

  • image: 一个包含图像的PIL.Image.Image对象。注意,访问图像列时(使用dataset[0]["image"]),图像文件会自动解码。解码大量图像文件可能会花费较长时间,因此建议先查询样本索引再访问"image"列,即dataset[0]["image"]应优先于dataset["image"][0]。
  • text: 图像的标签转录。

数据集信息

  • 特征:
    • image: 图像,数据类型为image。
    • text: 文本,数据类型为string。
  • 分割:
    • train: 训练集,包含33401个样本。
    • validation: 验证集,包含8318个样本。
    • test: 测试集,包含10441个样本。
  • 数据集大小: 52160个样本。
  • 标签:
    • atr
    • htr
    • ocr
    • modern
    • handwritten
搜集汇总
数据集介绍
main_image_url
构建方式
CASIA-HWDB2-line数据集由中国科学院自动化研究所模式识别国家重点实验室构建,旨在提供高质量的中文手写文本数据。该数据集通过1020名书写者使用Anoto笔在纸上书写,同时采集了在线和离线数据。所有图像均被调整为固定高度128像素,以确保数据的一致性和处理效率。
特点
该数据集包含33,401个训练样本、8,318个验证样本和10,441个测试样本,总计52,160个样本。每个样本由图像和对应的文本标签组成,图像为PIL格式,文本标签为手写文本的转录。数据集专注于中文手写文本识别,适用于图像到文本的转换任务,特别是手写文本识别(HTR)和光学字符识别(OCR)领域。
使用方法
使用CASIA-HWDB2-line数据集时,用户可以通过索引访问样本,例如`dataset[0]['image']`获取图像,`dataset[0]['text']`获取对应的文本标签。由于图像解码可能耗时,建议先查询样本索引再访问图像数据。该数据集适用于训练和评估手写文本识别模型,特别是在中文手写文本识别任务中表现出色。
背景与挑战
背景概述
CASIA-HWDB2-line数据集是由中国科学院自动化研究所模式识别国家重点实验室(NLPR)构建的离线中文手写数据库。该数据集创建于2012年,旨在为中文手写字符识别研究提供高质量的基准数据。数据集包含由1020名书写者使用Anoto笔在纸上书写的手写样本,涵盖了在线和离线两种数据形式。这些数据不仅为手写字符识别算法的开发与评估提供了丰富的资源,还在推动中文手写识别技术的发展中发挥了重要作用。CASIA-HWDB2-line数据集的研究背景源于对中文手写识别技术的迫切需求,尤其是在教育、文档数字化和智能输入等领域。
当前挑战
CASIA-HWDB2-line数据集在解决中文手写字符识别问题时面临多重挑战。首先,中文手写字符的多样性和复杂性使得识别任务极具挑战性,尤其是手写风格、笔画顺序和字形变化的多样性。其次,数据集的构建过程中,如何确保手写样本的质量和一致性是一个关键问题,尤其是在大规模数据采集和标注过程中。此外,图像预处理和特征提取的复杂性也对算法的性能提出了更高的要求。最后,由于数据集规模较大,图像解码和存储的效率问题也成为实际应用中的一大挑战。这些挑战不仅影响了算法的开发与优化,也对数据集的扩展和应用提出了更高的要求。
常用场景
经典使用场景
CASIA-HWDB2-line数据集在图像到文本转换领域具有广泛的应用,尤其是在手写汉字识别(HTR)和光学字符识别(OCR)任务中。该数据集通过提供大量手写中文文本的样本,为研究人员和开发者提供了一个标准化的基准,用于训练和评估手写文本识别模型。其经典使用场景包括手写文档的自动转录、历史文献的数字化处理以及教育领域的手写作业自动批改。
实际应用
在实际应用中,CASIA-HWDB2-line数据集被广泛用于开发智能手写输入系统、自动化文档处理工具以及手写文本的实时识别系统。例如,在金融领域,该数据集可用于开发手写支票的自动识别系统;在教育领域,可用于开发手写作业的自动批改工具;在文化遗产保护领域,可用于历史手稿的数字化和转录。
衍生相关工作
基于CASIA-HWDB2-line数据集,许多经典的研究工作得以展开。例如,研究人员开发了多种深度学习模型,如卷积神经网络(CNN)和循环神经网络(RNN),用于提高手写汉字识别的准确率。此外,该数据集还催生了一系列关于多模态融合、数据增强和迁移学习的研究,进一步推动了手写文本识别领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作