OCR_DataSet

github2023-05-17 更新2024-05-31 收录

下载链接：

https://github.com/Rid7/OCR_DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集并整理了多个OCR相关的数据集，包括但不限于ICDAR2015、MLT2019、COCO-Text_v2等，每个数据集都有详细的标注格式和使用情况说明。

This repository collects and organizes multiple OCR-related datasets, including but not limited to ICDAR2015, MLT2019, COCO-Text_v2, etc. Each dataset comes with detailed annotation formats and usage instructions.

创建时间：

2020-03-25

原始信息汇总

数据集概述

数据集列表

数据集	主页	适用情况	语言	数据情况	标注形式	说明
ICDAR2015	https://rrc.cvc.uab.es/?ch=4	检测&识别	英文	train:1,000 test:500	坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息	坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
MLT2019	https://rrc.cvc.uab.es/?ch=15	检测&识别	混合	train:10,000 test:10,000	坐标: x1, y1, x2, y2, x3, y3, x4, y4 script: 文字所属语言 transcription: 框内的文字信息	坐标: x1, y1, x2, y2, x3, y3, x4, y4 script: 文字所属语言 transcription : 框内的文字信息
COCO-Text_v2	https://bgshih.github.io/cocotext/	检测&识别	混合	train:43,686 validation:10,000 test:10,000	json
ReCTS	https://rrc.cvc.uab.es/?ch=12&com=introduction	检测&识别	混合	train:20,000 test:5,000	points: x1,y1,x2,y2,x3,y3,x4,y4 chars: 字符级别的标注 lines: 行级别的标注 transcription: 框内的文字信息 ignore: 0:不忽略，1:忽略	points: x1,y1,x2,y2,x3,y3,x4,y4 chars: 字符级别的标注 lines: 行级别的标注 transcription : 框内的文字信息 ignore: 0:不忽略，1:忽略
SROIE	https://rrc.cvc.uab.es/?ch=13	检测&识别	英文	train:699 test:400	坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息	坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
ArT	https://rrc.cvc.uab.es/?ch=14	检测&识别	混合	train: 5,603 test: 4,563	points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription: 框内的文字信息 language: 语言信息 illegibility: 是否模糊	points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription : 框内的文字信息 language: 语言信息 illegibility: 是否模糊
LSVT	https://rrc.cvc.uab.es/?ch=16	检测&识别	混合	全标注 train: 30,000 test: 20,000 只标注文本 400,000	points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription: 框内的文字信息 illegibility: 是否模糊	points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription : 框内的文字信息 illegibility: 是否模糊
Synth800k	http://www.robots.ox.ac.uk/~vgg/data/scenetext/	检测&识别	英文	800,000	imnames: 文件名称 wordBB: 24n,每张图像内的文本框 charBB: 24n,每张图像内的字符框 txt: 每张图形内的字符串	imnames: 文件名称 wordBB: 24n,每张图像内的文本框 charBB: 24n,每张图像内的字符框 txt: 每张图形内的字符串
icdar2017rctw	https://blog.csdn.net/wl1710582732/article/details/89761818	检测&识别	混合	train:8,034 test:4,229	坐标: x1, y1, x2, y2, x3, y3, x4, y4 <识别难易程度> transcription: 框内的文字信息	坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
MTWI 2018	识别: https://tianchi.aliyun.com/competition/entrance/231684/introduction 检测: https://tianchi.aliyun.com/competition/entrance/231685/introduction	检测&识别	混合	train:10,000 test:10,000	坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息	坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
百度中文场景文字识别	https://aistudio.baidu.com/aistudio/competition/detail/20	识别	混合	train:未统计 test:未统计	h: 图片高度 w: 图片宽度 name: 图片名 value: 图片上文字	h: 图片高度 w: 图片宽度 name: 图片名 value: 图片上文字
mjsynth	http://www.robots.ox.ac.uk/~vgg/data/text/	识别	英文	9,000,000	-	-
Synthetic Chinese String Dataset(360万中文数据集)	链接：https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码：spyi	识别	混合	300k	-	-
英文识别数据大礼包	链接：https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码：rryk	识别	英文	-	-	-

数据集处理

数据集已转换为统一格式，包括检测和识别。
提供了读取脚本，包括检测读取脚本和识别读取脚本。

数据集下载

数据集可通过百度云链接下载，提取码为9s4x。
下载后需修改标注文件中的路径。

搜集汇总

数据集介绍

构建方式

OCR_DataSet的构建过程整合了多个公开的文本检测与识别数据集，涵盖了多种语言和场景。数据集通过统一的格式转换，确保了数据的一致性和可用性。具体而言，数据集包含了ICDAR2015、MLT2019、COCO-Text_v2等多个知名数据集，涵盖了从英文到混合语言的广泛文本数据。每个数据集的标注信息均经过标准化处理，确保坐标、文字信息等关键数据的统一格式。此外，数据集还提供了详细的读取脚本，便于用户快速加载和使用数据。

特点

OCR_DataSet的特点在于其多样性和广泛性。数据集不仅涵盖了多种语言（如英文、中文等），还包含了丰富的场景文本数据，如自然场景、文档、广告牌等。每个数据集的标注信息详细，包括文本框的坐标、文字内容、语言类型等，部分数据集还提供了字符级别的标注。此外，数据集的规模庞大，部分数据集如Synth800k和mjsynth分别提供了80万和900万的样本量，能够满足大规模训练的需求。数据集还特别注重数据的多样性，涵盖了不同难度和场景的文本识别任务。

使用方法

使用OCR_DataSet时，用户首先需要从提供的百度云链接下载数据集，并根据需要修改标注文件中的路径信息。数据集提供了专门的读取脚本（det.py和rec.py），用户可以通过这些脚本快速加载数据。对于文本检测任务，用户可以使用det.py脚本加载包含文本框坐标和文字信息的标注文件；对于文本识别任务，rec.py脚本则提供了文字内容的加载功能。数据集的使用场景广泛，适用于文本检测、识别、多语言处理等多种任务，用户可以根据具体需求选择合适的数据集进行训练和测试。

背景与挑战

背景概述

OCR_DataSet是一个专注于光学字符识别（OCR）领域的数据集，旨在为文本检测和识别任务提供多样化的数据支持。该数据集由多个子数据集组成，包括ICDAR2015、MLT2019、COCO-Text_v2等，涵盖了多种语言和场景。这些子数据集由不同的研究机构或竞赛平台发布，如CVC UAB、阿里云天池等，时间跨度从2015年至2019年。OCR_DataSet的创建旨在解决复杂场景下的文本检测与识别问题，尤其是在多语言、多字体、低分辨率等挑战性环境下的文本识别。该数据集在OCR领域具有广泛的影响力，推动了相关算法的研究与优化。

当前挑战

OCR_DataSet面临的挑战主要体现在两个方面。首先，数据集所解决的领域问题——文本检测与识别，本身具有极高的复杂性。文本在自然场景中的表现形式多样，可能受到光照、遮挡、扭曲等因素的影响，导致识别难度增加。其次，在数据集的构建过程中，研究人员需要处理来自不同来源的数据，这些数据的标注格式、语言类型、图像质量等存在显著差异。为了确保数据集的一致性和可用性，研究人员必须进行大量的数据清洗、格式转换和标注统一工作。此外，多语言文本的识别也带来了额外的挑战，尤其是对于非拉丁字符（如中文、阿拉伯文）的识别，需要更复杂的模型和算法支持。

常用场景

经典使用场景

OCR_DataSet广泛应用于光学字符识别（OCR）领域，特别是在多语言文本检测和识别任务中。该数据集集成了多个国际知名的文本识别竞赛数据集，如ICDAR2015和MLT2019，提供了丰富的场景文本图像和精确的文本标注，适用于训练和测试深度学习模型，以提升模型在复杂背景下的文本识别能力。

衍生相关工作

基于OCR_DataSet，研究者们已经开发出多种先进的文本识别模型，如基于深度学习的端到端文本识别系统和多任务学习框架。这些模型不仅在学术研究中取得了突破，也被广泛应用于商业产品中，如百度的中文场景文字识别技术，这些技术的进步直接受益于OCR_DataSet提供的丰富训练数据。

数据集最近研究