多种数据集

github2024-02-20 更新2024-05-31 收录

下载链接：

https://github.com/xylcbd/ocr-open-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库列出了关于OCR的多种开放数据集，包括印刷文本和手写文本的数据集，以及混合类型的数据集。这些数据集用于研究和开发OCR技术。

This repository catalogs a variety of open datasets related to OCR (Optical Character Recognition), encompassing datasets of printed text, handwritten text, as well as mixed types. These datasets are utilized for the research and development of OCR technologies.

创建时间：

2017-12-26

原始信息汇总

OCR开放数据集概述

打印文本数据集

数据集名称	年份
Born-Digital Images (Web and Email)	2011-2015
COCO-Text	2017
Text Extraction from Biomedical Literature Figures	2017
Focused Scene Text	2013-2015
Text in Videos	2013-2015
Incidental Scene Text	2015
The Chars74K dataset	2009
The Uber Text dataset	2017
The Street View Text Dataset	2012
The Street View House Numbers (SVHN) Dataset	2011

手写文本数据集

数据集名称	年份
mnist	1998
NIST Special Database 19	1995-2016
The EMNIST Dataset	2017
IAM Handwriting Database	1999-2002
CASIA Online and Offline Chinese Handwriting Databases	2007-2010
CROHME: Competition on Recognition of Online Handwritten Mathematical Expressions	2012-2013

混合打印和手写文本数据集

数据集名称	年份
ETL Character Database	1973-1984

搜集汇总

数据集介绍

构建方式

多种数据集涵盖了光学字符识别（OCR）领域的多个子领域，包括印刷体、手写体以及混合体文本。这些数据集通过公开的学术资源和研究机构合作构建，数据来源广泛，涵盖了从网页、电子邮件、生物医学文献到街景图像等多种场景。每个数据集均经过严格的标注和验证，确保数据的准确性和可靠性。

特点

该数据集集合了多个OCR领域的经典数据集，具有多样性和广泛性。印刷体数据集如Born-Digital Images和COCO-Text，涵盖了不同年份和场景的文本图像；手写体数据集如MNIST和IAM Handwriting Database，提供了丰富的笔迹样本；混合体数据集如ETL Character Database，则结合了印刷体和手写体的特点。这些数据集不仅适用于基础研究，还能支持复杂的OCR任务。

使用方法

用户可以通过GitHub页面提供的链接访问各个数据集的详细信息，并根据研究需求选择合适的资源。每个数据集通常提供下载链接和详细的使用说明，用户可以根据需要下载数据并按照提供的指南进行预处理和分析。这些数据集广泛应用于OCR算法的训练、验证和测试，支持从基础字符识别到复杂场景文本提取的多种任务。

背景与挑战

背景概述

ocr-open-dataset 是一个汇集了多种光学字符识别（OCR）相关开放数据集的资源库，涵盖了印刷体、手写体以及混合体的文本识别数据集。这些数据集由多个研究机构在不同时间段创建，最早的可以追溯到1973年的ETL字符数据库，而最新的如EMNIST数据集则发布于2017年。这些数据集的创建旨在推动OCR技术在不同场景下的应用，如自然场景文本识别、生物医学文献中的文本提取以及手写字符识别等。通过提供多样化的数据资源，ocr-open-dataset为学术界和工业界的研究人员提供了丰富的实验材料，极大地促进了OCR技术的发展和应用。

当前挑战

ocr-open-dataset 所涉及的挑战主要集中在两个方面。首先，OCR技术本身面临多样化的文本识别问题，如自然场景中的文本识别需要处理复杂的背景干扰、光照变化和字体多样性；手写体识别则需应对个体书写风格的差异和字符形态的多变性。其次，在数据集的构建过程中，研究人员需要解决数据标注的准确性和一致性问题，尤其是在大规模数据集如COCO-Text和Street View Text中，标注的精细度和覆盖范围直接影响模型的训练效果。此外，跨语言、跨领域的文本识别任务也对数据集的多样性和代表性提出了更高的要求，这进一步增加了数据集构建的复杂性。

常用场景

经典使用场景

在光学字符识别（OCR）领域，多种数据集被广泛应用于训练和评估文本识别模型。例如，Born-Digital Images和COCO-Text数据集常用于处理数字图像中的文本识别问题，而Street View Text Dataset和SVHN数据集则专注于自然场景中的文本检测与识别。这些数据集通过提供多样化的文本图像，帮助研究人员开发出更加鲁棒的OCR算法。

衍生相关工作

基于这些数据集，许多经典的OCR模型和算法得以诞生。例如，基于COCO-Text的文本检测模型在自然场景文本识别中取得了显著进展，而基于MNIST的手写数字识别模型则成为了深度学习领域的基准测试工具。这些衍生工作不仅推动了OCR技术的发展，还为其他计算机视觉任务提供了宝贵的经验。

数据集最近研究