OCR_DataSet

github2020-06-07 更新2024-05-31 收录

下载链接：

https://github.com/Highlightbeast/OCR_DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

收集并整理有关OCR的数据集并统一标注格式，以便实验需要。包含多个数据集，如ICDAR2015、MLT2019、COCO-Text_v2等，每个数据集都有详细的标注形式和说明。

Collect and organize datasets related to OCR (Optical Character Recognition) and standardize the annotation format for experimental purposes. The collection includes multiple datasets such as ICDAR2015, MLT2019, COCO-Text_v2, etc., each with detailed annotation formats and descriptions.

创建时间：

2020-06-07

原始信息汇总

数据集概述

ICDAR2015

主页: https://rrc.cvc.uab.es/?ch=4
适用情况: 检测&识别
数据情况: 语言: 英文, train:1,000, test:500
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

MLT2019

主页: https://rrc.cvc.uab.es/?ch=15
适用情况: 检测&识别
数据情况: 语言: 混合, train:10,000, test:10,000
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, script, transcription

COCO-Text_v2

主页: https://bgshih.github.io/cocotext/
适用情况: 检测&识别
数据情况: 语言: 混合, train:43,686, validation:10,000, test:10,000
标注形式: json

ReCTS

主页: https://rrc.cvc.uab.es/?ch=12&com=introduction
适用情况: 检测&识别
数据情况: 语言: 混合, train:20,000, test:5,000
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4, chars: 字符级别的标注, lines: 行级别的标注, transcription, ignore: 0:不忽略，1:忽略

SROIE

主页: https://rrc.cvc.uab.es/?ch=13
适用情况: 检测&识别
数据情况: 语言: 英文, train:699, test:400
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

ArT

主页: https://rrc.cvc.uab.es/?ch=14
适用情况: 检测&识别
数据情况: 语言: 混合, train: 5,603, test: 4,563
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription, language, illegibility

LSVT

主页: https://rrc.cvc.uab.es/?ch=16
适用情况: 检测&识别
数据情况: 语言: 混合, 全标注, train: 30,000, test: 20,000, 只标注文本 400,000
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription, illegibility

Synth800k

主页: http://www.robots.ox.ac.uk/~vgg/data/scenetext/
适用情况: 检测&识别
数据情况: 语言: 英文, 800,000
标注形式: imnames, wordBB, charBB, txt

icdar2017rctw

主页: https://blog.csdn.net/wl1710582732/article/details/89761818
适用情况: 检测&识别
数据情况: 语言: 混合, train:8,034, test:4,229
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, 识别难易程度, transcription

MTWI 2018

主页: 识别: https://tianchi.aliyun.com/competition/entrance/231684/introduction, 检测: https://tianchi.aliyun.com/competition/entrance/231685/introduction
适用情况: 检测&识别
数据情况: 语言: 混合, train:10,000, test:10,000
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

百度中文场景文字识别

主页: https://aistudio.baidu.com/aistudio/competition/detail/20
适用情况: 识别
数据情况: 语言: 混合, train:未统计, test:未统计
标注形式: h, w, name, value

mjsynth

主页: http://www.robots.ox.ac.uk/~vgg/data/text/
适用情况: 识别
数据情况: 语言: 英文, 9,000,000
标注形式: -

Synthetic Chinese String Dataset(360万中文数据集)

主页: 链接：https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码：spyi
适用情况: 识别
数据情况: 语言: 混合, 300k
标注形式: -

搜集汇总

数据集介绍

构建方式

OCR_DataSet的构建过程涵盖了多个公开的文本检测与识别数据集，包括ICDAR2015、MLT2019、COCO-Text_v2等。这些数据集通过统一的格式转换，确保了数据的一致性和可用性。每个数据集均经过标准化处理，标注形式包括文本框坐标、文字内容及其语言信息，部分数据集还提供了字符级别的标注。数据集的构建旨在为文本检测与识别任务提供多样化的训练和测试数据。

特点

OCR_DataSet的特点在于其广泛的数据来源和丰富的语言覆盖。数据集涵盖了英文、中文及混合语言的场景文本，适用于多种文本检测与识别任务。数据集的标注形式多样，包括文本框坐标、文字内容、语言信息及字符级别的标注，部分数据集还提供了文本的模糊程度信息。此外，数据集规模庞大，如Synth800k包含80万张英文图像，Synthetic Chinese String Dataset则提供了360万中文数据，为模型训练提供了充足的样本支持。

使用方法

OCR_DataSet的使用方法简便高效。用户可通过提供的百度云链接下载数据集，并利用附带的读取脚本进行数据加载。检测任务可使用`det.py`脚本，识别任务则使用`rec.py`脚本。数据集支持多种格式的读取，用户可根据需求选择相应的标注信息进行模型训练或评估。此外，数据生成工具的链接也为用户提供了扩展数据集的可能，进一步提升了数据集的灵活性和实用性。

背景与挑战

背景概述

OCR_DataSet是一个专注于光学字符识别（OCR）领域的数据集集合，旨在为文本检测与识别任务提供多样化的数据支持。该数据集由多个子数据集组成，包括ICDAR2015、MLT2019、COCO-Text_v2等，涵盖了多种语言和场景。这些数据集由不同的研究机构或竞赛平台发布，如CVC-UAB、阿里巴巴天池等，时间跨度从2015年至2019年。OCR_DataSet的创建为OCR领域的研究者提供了丰富的实验数据，推动了文本检测与识别技术的进步，尤其是在多语言、复杂场景下的文本处理方面具有重要影响力。

当前挑战

OCR_DataSet面临的挑战主要体现在两个方面。首先，在解决领域问题上，文本检测与识别任务本身具有较高的复杂性，尤其是在多语言、多字体、低分辨率或复杂背景的场景中，文本的准确检测与识别仍然是一个难题。其次，在数据集的构建过程中，如何统一不同子数据集的格式、标注标准以及数据质量，是一个巨大的挑战。此外，数据集的多样性和规模也对模型的泛化能力提出了更高的要求，如何在有限的计算资源下高效处理大规模数据，也是研究者需要解决的问题。

常用场景

经典使用场景

OCR_DataSet广泛应用于文本检测与识别领域，特别是在自然场景下的文字识别任务中。该数据集通过整合多个国际知名的文本检测与识别竞赛数据集，如ICDAR2015、MLT2019等，为研究者提供了丰富的多语言、多场景的文本数据。这些数据涵盖了从简单到复杂的文本布局，能够有效支持文本检测与识别算法的训练与评估。

解决学术问题

OCR_DataSet解决了文本检测与识别领域中的多个关键问题，包括多语言文本的识别、复杂背景下的文本定位以及不规则文本的检测。通过提供多样化的数据集，研究者能够更好地训练模型以应对现实场景中的挑战，如光照变化、字体多样性和文本遮挡等问题。该数据集的出现显著推动了文本识别技术的进步，尤其是在多语言和复杂场景下的应用。

衍生相关工作

OCR_DataSet的发布催生了许多经典的文本检测与识别研究工作。例如，基于该数据集的深度学习模型在ICDAR竞赛中取得了显著的成绩，推动了文本检测与识别技术的快速发展。此外，许多研究者利用该数据集开发了新的算法，如基于注意力机制的文本识别模型和端到端的文本检测与识别框架，这些工作进一步拓展了OCR技术的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集