OCR_DataSet

github2022-12-22 更新2024-05-31 收录

下载链接：

https://github.com/yang-gis/OCR_DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

收集并整理有关OCR的数据集并统一标注格式，以便实验需要。包含多个数据集，如ICDAR2015、MLT2019、COCO-Text_v2等，每个数据集都有详细的标注形式和说明。

Collect and organize datasets related to OCR (Optical Character Recognition) and standardize the annotation format for experimental purposes. It includes multiple datasets such as ICDAR2015, MLT2019, COCO-Text_v2, etc., each with detailed annotation formats and descriptions.

创建时间：

2020-06-28

原始信息汇总

数据集概述

ICDAR2015

主页: https://rrc.cvc.uab.es/?ch=4
适用情况: 检测&识别
数据情况: 语言: 英文, train:1,000, test:500
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

MLT2019

主页: https://rrc.cvc.uab.es/?ch=15
适用情况: 检测&识别
数据情况: 语言: 混合, train:10,000, test:10,000
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, script, transcription

COCO-Text_v2

主页: https://bgshih.github.io/cocotext/
适用情况: 检测&识别
数据情况: 语言: 混合, train:43,686, validation:10,000, test:10,000
标注形式: json

ReCTS

主页: https://rrc.cvc.uab.es/?ch=12&com=introduction
适用情况: 检测&识别
数据情况: 语言: 混合, train:20,000, test:5,000
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4, chars: 字符级别的标注, lines: 行级别的标注, transcription : 框内的文字信息, ignore: 0:不忽略，1:忽略

SROIE

主页: https://rrc.cvc.uab.es/?ch=13
适用情况: 检测&识别
数据情况: 语言: 英文, train:699, test:400
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

ArT

主页: https://rrc.cvc.uab.es/?ch=14
适用情况: 检测&识别
数据情况: 语言: 混合, train: 5,603, test: 4,563
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription : 框内的文字信息, language: 语言信息, illegibility: 是否模糊

LSVT

主页: https://rrc.cvc.uab.es/?ch=16
适用情况: 检测&识别
数据情况: 语言: 混合, 全标注, train: 30,000, test: 20,000, 只标注文本, 400,000
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription : 框内的文字信息, illegibility: 是否模糊

Synth800k

主页: http://www.robots.ox.ac.uk/~vgg/data/scenetext/
适用情况: 检测&识别
数据情况: 语言: 英文, 800,000
标注形式: imnames: 文件名称, wordBB: 24n,每张图像内的文本框, charBB: 24n,每张图像内的字符框, txt: 每张图形内的字符串

icdar2017rctw

主页: https://blog.csdn.net/wl1710582732/article/details/89761818
适用情况: 检测&识别
数据情况: 语言: 混合, train:8,034, test:4,229
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, <识别难易程度>, transcription

MTWI 2018

主页: 识别: https://tianchi.aliyun.com/competition/entrance/231684/introduction, 检测: https://tianchi.aliyun.com/competition/entrance/231685/introduction
适用情况: 检测&识别
数据情况: 语言: 混合, train:10,000, test:10,000
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

百度中文场景文字识别

主页: https://aistudio.baidu.com/aistudio/competition/detail/20
适用情况: 识别
数据情况: 语言: 混合, train:未统计, test:未统计
标注形式: h: 图片高度, w: 图片宽度, name: 图片名, value: 图片上文字

mjsynth

主页: http://www.robots.ox.ac.uk/~vgg/data/text/
适用情况: 识别
数据情况: 语言: 英文, 9,000,000
标注形式: -

Synthetic Chinese String Dataset(360万中文数据集)

主页: 链接：https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码：spyi
适用情况: 识别
数据情况: 语言: 混合, 300k
标注形式: -

英文识别数据大礼包

主页: 链接：https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码：rryk
适用情况: 识别
数据情况: 语言: 英文
标注形式: -

搜集汇总

数据集介绍

构建方式

OCR_DataSet的构建过程涵盖了多个公开数据集，包括ICDAR2015、MLT2019、COCO-Text_v2等，这些数据集均经过统一格式转换，确保了数据的一致性和可用性。每个数据集均提供了详细的标注信息，如文本框坐标和文字内容，部分数据集还包含了语言信息和文字模糊度等额外标注。数据集的构建不仅依赖于公开数据，还通过数据生成工具进一步扩充了数据规模，特别是中文场景文字识别数据。

使用方法

OCR_DataSet的使用方法较为灵活，用户可以通过提供的百度云链接下载数据集，并使用附带的读取脚本进行数据加载。数据集分为检测和识别两类任务，分别提供了det.py和rec.py脚本用于读取数据。用户可以根据任务需求选择相应的数据集进行训练和测试。此外，数据集的标注信息以JSON格式存储，便于用户进行自定义处理和扩展。对于中文场景文字识别任务，数据集还提供了额外的中文数据生成工具，用户可以根据需求生成更多训练样本。

背景与挑战

背景概述

OCR_DataSet是一个专注于光学字符识别（OCR）领域的数据集集合，涵盖了多种语言和场景的文本检测与识别任务。该数据集由多个子数据集组成，包括ICDAR2015、MLT2019、COCO-Text_v2等，涵盖了从英文到中文的多种语言环境。这些数据集由多个研究机构和竞赛平台共同创建，旨在推动OCR技术在复杂场景中的应用。OCR_DataSet的创建时间跨度较大，最早的子数据集如ICDAR2015可追溯至2015年，而较新的数据集如MLT2019则于2019年发布。这些数据集在OCR领域的研究中具有重要影响力，尤其是在多语言、多字体、复杂背景下的文本识别任务中，为算法模型的训练与评估提供了丰富的资源。

当前挑战

OCR_DataSet面临的挑战主要集中在两个方面。首先，数据集所解决的领域问题——文本检测与识别——本身具有极高的复杂性。文本在图像中的表现形式多样，可能受到光照、角度、字体、背景复杂度等因素的影响，导致识别难度增加。特别是在多语言混合场景中，不同语言的字符结构和书写方式差异显著，进一步增加了识别的挑战性。其次，在数据集的构建过程中，研究人员需要处理大量的图像数据，并进行精确的文本标注。标注过程中，文本的边界框、字符位置、语言类型等信息需要高度准确，这对标注工具和人工标注的质量提出了极高的要求。此外，数据集的多样性和规模也对存储、处理和分发提出了技术挑战，尤其是在跨平台和跨语言环境下，如何确保数据的一致性和可用性是一个亟待解决的问题。

常用场景

经典使用场景

OCR_DataSet广泛应用于光学字符识别（OCR）领域，特别是在多语言文本检测和识别任务中。该数据集包含了多种语言的文本图像，如英文、中文等，适用于训练和评估OCR模型。通过提供丰富的标注信息，如字符位置和文本内容，OCR_DataSet为研究人员提供了一个标准化的测试平台，用于验证和改进OCR算法的性能。

解决学术问题

OCR_DataSet解决了OCR领域中多语言文本检测和识别的关键问题。通过整合多个公开数据集，如ICDAR2015、MLT2019等，该数据集为研究人员提供了多样化的训练和测试数据，有助于提升模型在不同语言和场景下的泛化能力。此外，数据集的统一格式和标注标准简化了数据预处理步骤，使得研究者能够更专注于算法优化和模型训练。

实际应用

在实际应用中，OCR_DataSet被广泛用于开发智能文档处理系统、自动化数据录入工具以及多语言翻译服务。例如，在金融领域，该数据集可用于自动识别和提取银行票据、发票等文档中的关键信息；在零售行业，OCR_DataSet支持商品标签的自动识别，提升库存管理效率。这些应用场景展示了OCR_DataSet在提升业务流程自动化和智能化方面的巨大潜力。

数据集最近研究