OCR_DataSet
收藏github2023-05-17 更新2024-05-31 收录
下载链接:
https://github.com/Rid7/OCR_DataSet
下载链接
链接失效反馈官方服务:
资源简介:
该仓库收集并整理了多个OCR相关的数据集,包括但不限于ICDAR2015、MLT2019、COCO-Text_v2等,每个数据集都有详细的标注格式和使用情况说明。
This repository collects and organizes multiple OCR-related datasets, including but not limited to ICDAR2015, MLT2019, COCO-Text_v2, etc. Each dataset comes with detailed annotation formats and usage instructions.
创建时间:
2020-03-25
原始信息汇总
数据集概述
数据集列表
| 数据集 | 主页 | 适用情况 | 语言 | 数据情况 | 标注形式 | 说明 |
|---|---|---|---|---|---|---|
| ICDAR2015 | https://rrc.cvc.uab.es/?ch=4 | 检测&识别 | 英文 | train:1,000 test:500 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息 |
| MLT2019 | https://rrc.cvc.uab.es/?ch=15 | 检测&识别 | 混合 | train:10,000 test:10,000 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 script: 文字所属语言 transcription: 框内的文字信息 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 script: 文字所属语言 transcription : 框内的文字信息 |
| COCO-Text_v2 | https://bgshih.github.io/cocotext/ | 检测&识别 | 混合 | train:43,686 validation:10,000 test:10,000 | json | |
| ReCTS | https://rrc.cvc.uab.es/?ch=12&com=introduction | 检测&识别 | 混合 | train:20,000 test:5,000 | points: x1,y1,x2,y2,x3,y3,x4,y4 chars: 字符级别的标注 lines: 行级别的标注 transcription: 框内的文字信息 ignore: 0:不忽略,1:忽略 | points: x1,y1,x2,y2,x3,y3,x4,y4 chars: 字符级别的标注 lines: 行级别的标注 transcription : 框内的文字信息 ignore: 0:不忽略,1:忽略 |
| SROIE | https://rrc.cvc.uab.es/?ch=13 | 检测&识别 | 英文 | train:699 test:400 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息 |
| ArT | https://rrc.cvc.uab.es/?ch=14 | 检测&识别 | 混合 | train: 5,603 test: 4,563 | points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription: 框内的文字信息 language: 语言信息 illegibility: 是否模糊 | points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription : 框内的文字信息 language: 语言信息 illegibility: 是否模糊 |
| LSVT | https://rrc.cvc.uab.es/?ch=16 | 检测&识别 | 混合 | 全标注 train: 30,000 test: 20,000 只标注文本 400,000 | points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription: 框内的文字信息 illegibility: 是否模糊 | points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription : 框内的文字信息 illegibility: 是否模糊 |
| Synth800k | http://www.robots.ox.ac.uk/~vgg/data/scenetext/ | 检测&识别 | 英文 | 800,000 | imnames: 文件名称 wordBB: 24n,每张图像内的文本框 charBB: 24n,每张图像内的字符框 txt: 每张图形内的字符串 | imnames: 文件名称 wordBB: 24n,每张图像内的文本框 charBB: 24n,每张图像内的字符框 txt: 每张图形内的字符串 |
| icdar2017rctw | https://blog.csdn.net/wl1710582732/article/details/89761818 | 检测&识别 | 混合 | train:8,034 test:4,229 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 <识别难易程度> transcription: 框内的文字信息 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息 |
| MTWI 2018 | 识别: https://tianchi.aliyun.com/competition/entrance/231684/introduction 检测: https://tianchi.aliyun.com/competition/entrance/231685/introduction | 检测&识别 | 混合 | train:10,000 test:10,000 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息 | 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息 |
| 百度中文场景文字识别 | https://aistudio.baidu.com/aistudio/competition/detail/20 | 识别 | 混合 | train:未统计 test:未统计 | h: 图片高度 w: 图片宽度 name: 图片名 value: 图片上文字 | h: 图片高度 w: 图片宽度 name: 图片名 value: 图片上文字 |
| mjsynth | http://www.robots.ox.ac.uk/~vgg/data/text/ | 识别 | 英文 | 9,000,000 | - | - |
| Synthetic Chinese String Dataset(360万中文数据集) | 链接:https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码:spyi | 识别 | 混合 | 300k | - | - |
| 英文识别数据大礼包 | 链接:https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码:rryk | 识别 | 英文 | - | - | - |
数据集处理
- 数据集已转换为统一格式,包括检测和识别。
- 提供了读取脚本,包括检测读取脚本和识别读取脚本。
数据集下载
- 数据集可通过百度云链接下载,提取码为9s4x。
- 下载后需修改标注文件中的路径。
搜集汇总
数据集介绍

构建方式
OCR_DataSet的构建过程整合了多个公开的文本检测与识别数据集,涵盖了多种语言和场景。数据集通过统一的格式转换,确保了数据的一致性和可用性。具体而言,数据集包含了ICDAR2015、MLT2019、COCO-Text_v2等多个知名数据集,涵盖了从英文到混合语言的广泛文本数据。每个数据集的标注信息均经过标准化处理,确保坐标、文字信息等关键数据的统一格式。此外,数据集还提供了详细的读取脚本,便于用户快速加载和使用数据。
特点
OCR_DataSet的特点在于其多样性和广泛性。数据集不仅涵盖了多种语言(如英文、中文等),还包含了丰富的场景文本数据,如自然场景、文档、广告牌等。每个数据集的标注信息详细,包括文本框的坐标、文字内容、语言类型等,部分数据集还提供了字符级别的标注。此外,数据集的规模庞大,部分数据集如Synth800k和mjsynth分别提供了80万和900万的样本量,能够满足大规模训练的需求。数据集还特别注重数据的多样性,涵盖了不同难度和场景的文本识别任务。
使用方法
使用OCR_DataSet时,用户首先需要从提供的百度云链接下载数据集,并根据需要修改标注文件中的路径信息。数据集提供了专门的读取脚本(det.py和rec.py),用户可以通过这些脚本快速加载数据。对于文本检测任务,用户可以使用det.py脚本加载包含文本框坐标和文字信息的标注文件;对于文本识别任务,rec.py脚本则提供了文字内容的加载功能。数据集的使用场景广泛,适用于文本检测、识别、多语言处理等多种任务,用户可以根据具体需求选择合适的数据集进行训练和测试。
背景与挑战
背景概述
OCR_DataSet是一个专注于光学字符识别(OCR)领域的数据集,旨在为文本检测和识别任务提供多样化的数据支持。该数据集由多个子数据集组成,包括ICDAR2015、MLT2019、COCO-Text_v2等,涵盖了多种语言和场景。这些子数据集由不同的研究机构或竞赛平台发布,如CVC UAB、阿里云天池等,时间跨度从2015年至2019年。OCR_DataSet的创建旨在解决复杂场景下的文本检测与识别问题,尤其是在多语言、多字体、低分辨率等挑战性环境下的文本识别。该数据集在OCR领域具有广泛的影响力,推动了相关算法的研究与优化。
当前挑战
OCR_DataSet面临的挑战主要体现在两个方面。首先,数据集所解决的领域问题——文本检测与识别,本身具有极高的复杂性。文本在自然场景中的表现形式多样,可能受到光照、遮挡、扭曲等因素的影响,导致识别难度增加。其次,在数据集的构建过程中,研究人员需要处理来自不同来源的数据,这些数据的标注格式、语言类型、图像质量等存在显著差异。为了确保数据集的一致性和可用性,研究人员必须进行大量的数据清洗、格式转换和标注统一工作。此外,多语言文本的识别也带来了额外的挑战,尤其是对于非拉丁字符(如中文、阿拉伯文)的识别,需要更复杂的模型和算法支持。
常用场景
经典使用场景
OCR_DataSet广泛应用于光学字符识别(OCR)领域,特别是在多语言文本检测和识别任务中。该数据集集成了多个国际知名的文本识别竞赛数据集,如ICDAR2015和MLT2019,提供了丰富的场景文本图像和精确的文本标注,适用于训练和测试深度学习模型,以提升模型在复杂背景下的文本识别能力。
衍生相关工作
基于OCR_DataSet,研究者们已经开发出多种先进的文本识别模型,如基于深度学习的端到端文本识别系统和多任务学习框架。这些模型不仅在学术研究中取得了突破,也被广泛应用于商业产品中,如百度的中文场景文字识别技术,这些技术的进步直接受益于OCR_DataSet提供的丰富训练数据。
数据集最近研究
最新研究方向
在光学字符识别(OCR)领域,OCR_DataSet的整合与标准化为研究者提供了丰富的多语言、多场景文本数据资源。近年来,随着深度学习技术的飞速发展,OCR技术在处理复杂背景、多语言混合及不规则文本方面取得了显著进展。研究者们正致力于利用该数据集中的多样化数据,如ICDAR2015、MLT2019等,探索更高效的文本检测与识别算法。特别是在自然场景文本识别(STR)领域,如何提升模型在低质量图像、模糊文本及多语言环境下的泛化能力,已成为当前研究的热点。此外,数据增强技术、自监督学习及跨语言迁移学习等新兴方法,也在该数据集的推动下得到了广泛应用,进一步推动了OCR技术的边界扩展。
以上内容由遇见数据集搜集并总结生成



