OCR_DataSet

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/WenmuZhou/OCR_DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集并整理了多个OCR相关的数据集，包括ICDAR2015、MLT2019、COCO-Text_v2、ReCTS、SROIE、ArT、LSVT等，用于OCR的检测和识别任务。数据集涵盖了多种语言和不同的标注格式，适用于各种OCR实验和研究。

This repository compiles and organizes multiple OCR-related datasets, including ICDAR2015, MLT2019, COCO-Text_v2, ReCTS, SROIE, ArT, and LSVT, for OCR detection and recognition tasks. The datasets encompass a variety of languages and different annotation formats, making them suitable for a wide range of OCR experiments and research.

创建时间：

2020-03-18

原始信息汇总

数据集概述

ICDAR2015

主页: https://rrc.cvc.uab.es/?ch=4
适用情况: 检测&识别
数据情况: 语言: 英文, train:1,000, test:500
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

MLT2019

主页: https://rrc.cvc.uab.es/?ch=15
适用情况: 检测&识别
数据情况: 语言: 混合, train:10,000, test:10,000
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, script, transcription

COCO-Text_v2

主页: https://bgshih.github.io/cocotext/
适用情况: 检测&识别
数据情况: 语言: 混合, train:43,686, validation:10,000, test:10,000
标注形式: json

ReCTS

主页: https://rrc.cvc.uab.es/?ch=12&com=introduction
适用情况: 检测&识别
数据情况: 语言: 混合, train:20,000, test:5,000
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4, chars: 字符级别的标注, lines: 行级别的标注, transcription: 框内的文字信息, ignore: 0:不忽略，1:忽略

SROIE

主页: https://rrc.cvc.uab.es/?ch=13
适用情况: 检测&识别
数据情况: 语言: 英文, train:699, test:400
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

ArT

主页: https://rrc.cvc.uab.es/?ch=14
适用情况: 检测&识别
数据情况: 语言: 混合, train: 5,603, test: 4,563
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription: 框内的文字信息, language: 语言信息, illegibility: 是否模糊

LSVT

主页: https://rrc.cvc.uab.es/?ch=16
适用情况: 检测&识别
数据情况: 语言: 混合, 全标注, train: 30,000, test: 20,000, 只标注文本, 400,000
标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription: 框内的文字信息, illegibility: 是否模糊

Synth800k

主页: http://www.robots.ox.ac.uk/~vgg/data/scenetext/
适用情况: 检测&识别
数据情况: 语言: 英文, 800,000
标注形式: imnames: 文件名称, wordBB: 24n,每张图像内的文本框, charBB: 24n,每张图像内的字符框, txt: 每张图形内的字符串

icdar2017rctw

主页: https://blog.csdn.net/wl1710582732/article/details/89761818
适用情况: 检测&识别
数据情况: 语言: 混合, train:8,034, test:4,229
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, <识别难易程度>, transcription

MTWI 2018

主页: 识别: https://tianchi.aliyun.com/competition/entrance/231684/introduction, 检测: https://tianchi.aliyun.com/competition/entrance/231685/introduction
适用情况: 检测&识别
数据情况: 语言: 混合, train:10,000, test:10,000
标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

百度中文场景文字识别

主页: https://aistudio.baidu.com/aistudio/competition/detail/20
适用情况: 识别
数据情况: 语言: 混合, train:未统计, test:未统计
标注形式: h: 图片高度, w: 图片宽度, name: 图片名, value: 图片上文字

mjsynth

主页: http://www.robots.ox.ac.uk/~vgg/data/text/
适用情况: 识别
数据情况: 语言: 英文, 9,000,000
标注形式: -

Synthetic Chinese String Dataset(360万中文数据集)

主页: 链接：https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码：spyi
适用情况: 识别
数据情况: 语言: 混合, 300k
标注形式: -

英文识别数据大礼包

主页: 链接：https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码：rryk
适用情况: 识别
数据情况: 语言: 英文
标注形式: -

搜集汇总

数据集介绍

构建方式

OCR_DataSet数据集的构建方式体现了对多种来源数据的整合与标准化处理。该数据集汇集了来自不同公开数据集的文本检测与识别数据，包括ICDAR2015、MLT2019、COCO-Text_v2等，涵盖了英文、中文及多种混合语言。这些数据集经过统一格式的转换，确保了标注信息的一致性，如坐标点的标准化表示和文字转录的统一格式。此外，数据集还包含了大规模的合成数据，如Synth800k和Synthetic Chinese String Dataset，以增强模型的泛化能力。

使用方法

使用OCR_DataSet数据集时，用户首先需要通过提供的百度云链接下载数据集，并根据实际路径修改标注文件中的路径信息。数据集提供了专门的读取脚本，分别用于检测和识别任务，用户可以根据需要选择合适的脚本进行数据读取和预处理。此外，数据集的README文件中详细列出了各数据集的适用情况、数据情况及标注形式，用户可以根据具体需求选择合适的数据子集进行训练和测试。

背景与挑战

背景概述

OCR_DataSet数据集是由多个知名研究机构和公司合作创建的，旨在解决光学字符识别（OCR）领域的核心问题。该数据集整合了来自不同来源的多种语言文本数据，包括英文、中文及其他混合语言，涵盖了从简单的单词识别到复杂的场景文本检测与识别任务。其创建时间可追溯至近年来，主要研究人员和机构包括但不限于CVC、百度、阿里巴巴等，这些机构在OCR领域具有显著的影响力。OCR_DataSet的推出，极大地推动了OCR技术的发展，为研究人员提供了丰富的数据资源，促进了算法性能的提升和应用场景的扩展。

当前挑战

OCR_DataSet在构建过程中面临了多重挑战。首先，数据集的多样性带来了语言和字符集的复杂性，如何确保不同语言和字符集的识别精度是一个重大挑战。其次，数据集的规模庞大，涉及多个来源的数据整合，数据格式和标注标准的不一致性增加了数据处理的难度。此外，场景文本的多样性和复杂性，如模糊、扭曲、遮挡等，对模型的鲁棒性提出了高要求。最后，数据集的更新和维护也是一个持续的挑战，需要不断引入新的数据和场景以保持其前沿性和实用性。

常用场景

经典使用场景

OCR_DataSet数据集在光学字符识别（OCR）领域中具有广泛的应用。其经典使用场景包括文本检测和识别，涵盖了从简单的英文文本到复杂的混合语言场景。数据集整合了多个知名数据集，如ICDAR2015、MLT2019和COCO-Text_v2，为研究人员和开发者提供了丰富的训练和测试资源。通过这些数据集，用户可以训练和评估各种OCR模型，从基本的字符识别到复杂的场景文本理解。

解决学术问题

OCR_DataSet数据集解决了光学字符识别领域中的多个关键学术问题。首先，它提供了多语言和多场景的数据，有助于解决跨语言和跨场景的OCR模型泛化能力问题。其次，数据集的高质量标注和多样性有助于提升模型的鲁棒性和准确性。此外，数据集的广泛应用促进了OCR技术在不同领域的深入研究，如文档分析、自动驾驶和增强现实等。

实际应用

在实际应用中，OCR_DataSet数据集被广泛用于各种OCR系统的开发和优化。例如，在金融领域，它可以用于自动识别和处理银行支票、发票和合同等文档。在零售业，数据集支持自动化的货架标签和价格标签识别。此外，在文化遗产保护中，OCR技术帮助数字化和保存历史文献和手稿。这些应用显著提高了工作效率和准确性，减少了人工操作的错误和成本。

数据集最近研究