five

多种数据集

收藏
github2024-02-20 更新2024-05-31 收录
下载链接:
https://github.com/xylcbd/ocr-open-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库列出了关于OCR的多种开放数据集,包括印刷文本和手写文本的数据集,以及混合类型的数据集。这些数据集用于研究和开发OCR技术。

This repository catalogs a variety of open datasets related to OCR (Optical Character Recognition), encompassing datasets of printed text, handwritten text, as well as mixed types. These datasets are utilized for the research and development of OCR technologies.
创建时间:
2017-12-26
原始信息汇总

OCR开放数据集概述

打印文本数据集

数据集名称 年份
Born-Digital Images (Web and Email) 2011-2015
COCO-Text 2017
Text Extraction from Biomedical Literature Figures 2017
Focused Scene Text 2013-2015
Text in Videos 2013-2015
Incidental Scene Text 2015
The Chars74K dataset 2009
The Uber Text dataset 2017
The Street View Text Dataset 2012
The Street View House Numbers (SVHN) Dataset 2011

手写文本数据集

数据集名称 年份
mnist 1998
NIST Special Database 19 1995-2016
The EMNIST Dataset 2017
IAM Handwriting Database 1999-2002
CASIA Online and Offline Chinese Handwriting Databases 2007-2010
CROHME: Competition on Recognition of Online Handwritten Mathematical Expressions 2012-2013

混合打印和手写文本数据集

数据集名称 年份
ETL Character Database 1973-1984
搜集汇总
数据集介绍
main_image_url
构建方式
多种数据集涵盖了光学字符识别(OCR)领域的多个子领域,包括印刷体、手写体以及混合体文本。这些数据集通过公开的学术资源和研究机构合作构建,数据来源广泛,涵盖了从网页、电子邮件、生物医学文献到街景图像等多种场景。每个数据集均经过严格的标注和验证,确保数据的准确性和可靠性。
特点
该数据集集合了多个OCR领域的经典数据集,具有多样性和广泛性。印刷体数据集如Born-Digital Images和COCO-Text,涵盖了不同年份和场景的文本图像;手写体数据集如MNIST和IAM Handwriting Database,提供了丰富的笔迹样本;混合体数据集如ETL Character Database,则结合了印刷体和手写体的特点。这些数据集不仅适用于基础研究,还能支持复杂的OCR任务。
使用方法
用户可以通过GitHub页面提供的链接访问各个数据集的详细信息,并根据研究需求选择合适的资源。每个数据集通常提供下载链接和详细的使用说明,用户可以根据需要下载数据并按照提供的指南进行预处理和分析。这些数据集广泛应用于OCR算法的训练、验证和测试,支持从基础字符识别到复杂场景文本提取的多种任务。
背景与挑战
背景概述
ocr-open-dataset 是一个汇集了多种光学字符识别(OCR)相关开放数据集的资源库,涵盖了印刷体、手写体以及混合体的文本识别数据集。这些数据集由多个研究机构在不同时间段创建,最早的可以追溯到1973年的ETL字符数据库,而最新的如EMNIST数据集则发布于2017年。这些数据集的创建旨在推动OCR技术在不同场景下的应用,如自然场景文本识别、生物医学文献中的文本提取以及手写字符识别等。通过提供多样化的数据资源,ocr-open-dataset为学术界和工业界的研究人员提供了丰富的实验材料,极大地促进了OCR技术的发展和应用。
当前挑战
ocr-open-dataset 所涉及的挑战主要集中在两个方面。首先,OCR技术本身面临多样化的文本识别问题,如自然场景中的文本识别需要处理复杂的背景干扰、光照变化和字体多样性;手写体识别则需应对个体书写风格的差异和字符形态的多变性。其次,在数据集的构建过程中,研究人员需要解决数据标注的准确性和一致性问题,尤其是在大规模数据集如COCO-Text和Street View Text中,标注的精细度和覆盖范围直接影响模型的训练效果。此外,跨语言、跨领域的文本识别任务也对数据集的多样性和代表性提出了更高的要求,这进一步增加了数据集构建的复杂性。
常用场景
经典使用场景
在光学字符识别(OCR)领域,多种数据集被广泛应用于训练和评估文本识别模型。例如,Born-Digital Images和COCO-Text数据集常用于处理数字图像中的文本识别问题,而Street View Text Dataset和SVHN数据集则专注于自然场景中的文本检测与识别。这些数据集通过提供多样化的文本图像,帮助研究人员开发出更加鲁棒的OCR算法。
衍生相关工作
基于这些数据集,许多经典的OCR模型和算法得以诞生。例如,基于COCO-Text的文本检测模型在自然场景文本识别中取得了显著进展,而基于MNIST的手写数字识别模型则成为了深度学习领域的基准测试工具。这些衍生工作不仅推动了OCR技术的发展,还为其他计算机视觉任务提供了宝贵的经验。
数据集最近研究
最新研究方向
在光学字符识别(OCR)领域,多种数据集的整合与应用正成为研究热点。近年来,随着深度学习技术的迅猛发展,研究者们开始关注如何利用这些数据集提升OCR模型的泛化能力和鲁棒性。例如,Born-Digital Images和COCO-Text等数据集被广泛用于场景文本检测与识别任务,而MNIST和EMNIST等手写数据集则在手写字符识别领域发挥了重要作用。特别是在跨领域文本识别方面,混合印刷体和手写体的数据集如ETL Character Database,为模型的多模态学习提供了宝贵资源。这些数据集的广泛应用不仅推动了OCR技术的进步,还在自动驾驶、文档数字化和医疗图像分析等领域产生了深远影响。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务