Teklia/CASIA-HWDB2-line|中文手写识别数据集|OCR数据集

hugging_face2024-03-14 更新2024-06-22 收录

中文手写识别

OCR

下载链接：

https://hf-mirror.com/datasets/Teklia/CASIA-HWDB2-line

下载链接

链接失效反馈

资源简介：

CASIA-HWDB2-line数据集是一个关于中文手写文本的图像到文本数据集，由中国科学院自动化研究所的模式识别国家重点实验室（NLPR）构建。该数据集包含了1020位书写者使用Anoto笔在纸上书写的手写样本，这些样本既包括在线数据也包括离线数据。所有图像都被调整为固定的128像素高度。数据集包含训练集、验证集和测试集，分别有33401、8318和10441个样本。数据集的主要用途是手写文本识别（HTR）、光学字符识别（OCR）等任务。

提供机构：

Teklia

原始信息汇总

CASIA-HWDB2 - line level 数据集概述

数据集描述

数据集摘要

CASIA-HWDB2 是由中国科学院自动化研究所（CASIA）模式识别国家实验室（NLPR）构建的离线中文手写数据库。该数据库包含1,020位作者使用Anoto笔在纸上书写的手写样本，从而同时获得了在线和离线数据。所有图像都被调整为固定高度128像素。

语言

数据集中的所有文档均为中文书写。

数据集结构

数据实例

数据实例包含以下字段： json { "image": <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1244x128 at 0x1A800E8E190>, "text": "2007年高校招生录取工作即将陆续展开,教育部有关负责人" }

数据字段

image: 一个包含图像的PIL.Image.Image对象。注意，访问图像列时（使用dataset[0]["image"]），图像文件会自动解码。解码大量图像文件可能会花费较长时间，因此建议先查询样本索引再访问"image"列，即dataset[0]["image"]应优先于dataset["image"][0]。
text: 图像的标签转录。

数据集信息

特征:
- image: 图像，数据类型为image。
- text: 文本，数据类型为string。
分割:
- train: 训练集，包含33401个样本。
- validation: 验证集，包含8318个样本。
- test: 测试集，包含10441个样本。
数据集大小: 52160个样本。
标签:
- atr
- htr
- ocr
- modern
- handwritten

AI搜集汇总

数据集介绍

构建方式

CASIA-HWDB2-line数据集由中国科学院自动化研究所模式识别国家重点实验室构建，旨在提供高质量的中文手写文本数据。该数据集通过1020名书写者使用Anoto笔在纸上书写，同时采集了在线和离线数据。所有图像均被调整为固定高度128像素，以确保数据的一致性和处理效率。

特点

该数据集包含33,401个训练样本、8,318个验证样本和10,441个测试样本，总计52,160个样本。每个样本由图像和对应的文本标签组成，图像为PIL格式，文本标签为手写文本的转录。数据集专注于中文手写文本识别，适用于图像到文本的转换任务，特别是手写文本识别（HTR）和光学字符识别（OCR）领域。

使用方法

使用CASIA-HWDB2-line数据集时，用户可以通过索引访问样本，例如`dataset[0]['image']`获取图像，`dataset[0]['text']`获取对应的文本标签。由于图像解码可能耗时，建议先查询样本索引再访问图像数据。该数据集适用于训练和评估手写文本识别模型，特别是在中文手写文本识别任务中表现出色。

背景与挑战

背景概述

CASIA-HWDB2-line数据集是由中国科学院自动化研究所模式识别国家重点实验室（NLPR）构建的离线中文手写数据库。该数据集创建于2012年，旨在为中文手写字符识别研究提供高质量的基准数据。数据集包含由1020名书写者使用Anoto笔在纸上书写的手写样本，涵盖了在线和离线两种数据形式。这些数据不仅为手写字符识别算法的开发与评估提供了丰富的资源，还在推动中文手写识别技术的发展中发挥了重要作用。CASIA-HWDB2-line数据集的研究背景源于对中文手写识别技术的迫切需求，尤其是在教育、文档数字化和智能输入等领域。

当前挑战

CASIA-HWDB2-line数据集在解决中文手写字符识别问题时面临多重挑战。首先，中文手写字符的多样性和复杂性使得识别任务极具挑战性，尤其是手写风格、笔画顺序和字形变化的多样性。其次，数据集的构建过程中，如何确保手写样本的质量和一致性是一个关键问题，尤其是在大规模数据采集和标注过程中。此外，图像预处理和特征提取的复杂性也对算法的性能提出了更高的要求。最后，由于数据集规模较大，图像解码和存储的效率问题也成为实际应用中的一大挑战。这些挑战不仅影响了算法的开发与优化，也对数据集的扩展和应用提出了更高的要求。

常用场景

经典使用场景

CASIA-HWDB2-line数据集在图像到文本转换领域具有广泛的应用，尤其是在手写汉字识别（HTR）和光学字符识别（OCR）任务中。该数据集通过提供大量手写中文文本的样本，为研究人员和开发者提供了一个标准化的基准，用于训练和评估手写文本识别模型。其经典使用场景包括手写文档的自动转录、历史文献的数字化处理以及教育领域的手写作业自动批改。

实际应用

在实际应用中，CASIA-HWDB2-line数据集被广泛用于开发智能手写输入系统、自动化文档处理工具以及手写文本的实时识别系统。例如，在金融领域，该数据集可用于开发手写支票的自动识别系统；在教育领域，可用于开发手写作业的自动批改工具；在文化遗产保护领域，可用于历史手稿的数字化和转录。

衍生相关工作

基于CASIA-HWDB2-line数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种深度学习模型，如卷积神经网络（CNN）和循环神经网络（RNN），用于提高手写汉字识别的准确率。此外，该数据集还催生了一系列关于多模态融合、数据增强和迁移学习的研究，进一步推动了手写文本识别领域的技术进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站，旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书，如判决书、裁定书、调解书等，涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表，论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话，其中包含两个字段：用户发言和助手回应，均为字符串类型。训练集大小为38646852字节，共有44096条对话记录。

huggingface 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集，共计约1,0000,000轮，上亿级token，包含正式&非正式风格对话，使用偏口语化自然表达。覆盖工作、生活、校园等场景，及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上，DOTS-NLP-216包含了对真实场景的对话采集，及高度还原真实场景的模拟对话这两种方式，兼顾分布的代表性、多样性和样本规模。

魔搭社区收录