five

OCR_DataSet

收藏
github2023-05-17 更新2024-05-31 收录
下载链接:
https://github.com/Rid7/OCR_DataSet
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库收集并整理了多个OCR相关的数据集,包括但不限于ICDAR2015、MLT2019、COCO-Text_v2等,每个数据集都有详细的标注格式和使用情况说明。

This repository collects and organizes multiple OCR-related datasets, including but not limited to ICDAR2015, MLT2019, COCO-Text_v2, etc. Each dataset comes with detailed annotation formats and usage instructions.
创建时间:
2020-03-25
原始信息汇总

数据集概述

数据集列表

数据集 主页 适用情况 语言 数据情况 标注形式 说明
ICDAR2015 https://rrc.cvc.uab.es/?ch=4 检测&识别 英文 train:1,000 test:500 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
MLT2019 https://rrc.cvc.uab.es/?ch=15 检测&识别 混合 train:10,000 test:10,000 坐标: x1, y1, x2, y2, x3, y3, x4, y4 script: 文字所属语言 transcription: 框内的文字信息 坐标: x1, y1, x2, y2, x3, y3, x4, y4 script: 文字所属语言 transcription : 框内的文字信息
COCO-Text_v2 https://bgshih.github.io/cocotext/ 检测&识别 混合 train:43,686 validation:10,000 test:10,000 json
ReCTS https://rrc.cvc.uab.es/?ch=12&com=introduction 检测&识别 混合 train:20,000 test:5,000 points: x1,y1,x2,y2,x3,y3,x4,y4 chars: 字符级别的标注 lines: 行级别的标注 transcription: 框内的文字信息 ignore: 0:不忽略,1:忽略 points: x1,y1,x2,y2,x3,y3,x4,y4 chars: 字符级别的标注 lines: 行级别的标注 transcription : 框内的文字信息 ignore: 0:不忽略,1:忽略
SROIE https://rrc.cvc.uab.es/?ch=13 检测&识别 英文 train:699 test:400 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
ArT https://rrc.cvc.uab.es/?ch=14 检测&识别 混合 train: 5,603 test: 4,563 points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription: 框内的文字信息 language: 语言信息 illegibility: 是否模糊 points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription : 框内的文字信息 language: 语言信息 illegibility: 是否模糊
LSVT https://rrc.cvc.uab.es/?ch=16 检测&识别 混合 全标注 train: 30,000 test: 20,000 只标注文本 400,000 points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription: 框内的文字信息 illegibility: 是否模糊 points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn transcription : 框内的文字信息 illegibility: 是否模糊
Synth800k http://www.robots.ox.ac.uk/~vgg/data/scenetext/ 检测&识别 英文 800,000 imnames: 文件名称 wordBB: 24n,每张图像内的文本框 charBB: 24n,每张图像内的字符框 txt: 每张图形内的字符串 imnames: 文件名称 wordBB: 24n,每张图像内的文本框 charBB: 24n,每张图像内的字符框 txt: 每张图形内的字符串
icdar2017rctw https://blog.csdn.net/wl1710582732/article/details/89761818 检测&识别 混合 train:8,034 test:4,229 坐标: x1, y1, x2, y2, x3, y3, x4, y4 <识别难易程度> transcription: 框内的文字信息 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
MTWI 2018 识别: https://tianchi.aliyun.com/competition/entrance/231684/introduction 检测: https://tianchi.aliyun.com/competition/entrance/231685/introduction 检测&识别 混合 train:10,000 test:10,000 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription: 框内的文字信息 坐标: x1, y1, x2, y2, x3, y3, x4, y4 transcription : 框内的文字信息
百度中文场景文字识别 https://aistudio.baidu.com/aistudio/competition/detail/20 识别 混合 train:未统计 test:未统计 h: 图片高度 w: 图片宽度 name: 图片名 value: 图片上文字 h: 图片高度 w: 图片宽度 name: 图片名 value: 图片上文字
mjsynth http://www.robots.ox.ac.uk/~vgg/data/text/ 识别 英文 9,000,000 - -
Synthetic Chinese String Dataset(360万中文数据集) 链接:https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码:spyi 识别 混合 300k - -
英文识别数据大礼包 链接:https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码:rryk 识别 英文 - - -

数据集处理

  • 数据集已转换为统一格式,包括检测和识别。
  • 提供了读取脚本,包括检测读取脚本和识别读取脚本。

数据集下载

  • 数据集可通过百度云链接下载,提取码为9s4x。
  • 下载后需修改标注文件中的路径。
搜集汇总
数据集介绍
main_image_url
构建方式
OCR_DataSet的构建过程整合了多个公开的文本检测与识别数据集,涵盖了多种语言和场景。数据集通过统一的格式转换,确保了数据的一致性和可用性。具体而言,数据集包含了ICDAR2015、MLT2019、COCO-Text_v2等多个知名数据集,涵盖了从英文到混合语言的广泛文本数据。每个数据集的标注信息均经过标准化处理,确保坐标、文字信息等关键数据的统一格式。此外,数据集还提供了详细的读取脚本,便于用户快速加载和使用数据。
特点
OCR_DataSet的特点在于其多样性和广泛性。数据集不仅涵盖了多种语言(如英文、中文等),还包含了丰富的场景文本数据,如自然场景、文档、广告牌等。每个数据集的标注信息详细,包括文本框的坐标、文字内容、语言类型等,部分数据集还提供了字符级别的标注。此外,数据集的规模庞大,部分数据集如Synth800k和mjsynth分别提供了80万和900万的样本量,能够满足大规模训练的需求。数据集还特别注重数据的多样性,涵盖了不同难度和场景的文本识别任务。
使用方法
使用OCR_DataSet时,用户首先需要从提供的百度云链接下载数据集,并根据需要修改标注文件中的路径信息。数据集提供了专门的读取脚本(det.py和rec.py),用户可以通过这些脚本快速加载数据。对于文本检测任务,用户可以使用det.py脚本加载包含文本框坐标和文字信息的标注文件;对于文本识别任务,rec.py脚本则提供了文字内容的加载功能。数据集的使用场景广泛,适用于文本检测、识别、多语言处理等多种任务,用户可以根据具体需求选择合适的数据集进行训练和测试。
背景与挑战
背景概述
OCR_DataSet是一个专注于光学字符识别(OCR)领域的数据集,旨在为文本检测和识别任务提供多样化的数据支持。该数据集由多个子数据集组成,包括ICDAR2015、MLT2019、COCO-Text_v2等,涵盖了多种语言和场景。这些子数据集由不同的研究机构或竞赛平台发布,如CVC UAB、阿里云天池等,时间跨度从2015年至2019年。OCR_DataSet的创建旨在解决复杂场景下的文本检测与识别问题,尤其是在多语言、多字体、低分辨率等挑战性环境下的文本识别。该数据集在OCR领域具有广泛的影响力,推动了相关算法的研究与优化。
当前挑战
OCR_DataSet面临的挑战主要体现在两个方面。首先,数据集所解决的领域问题——文本检测与识别,本身具有极高的复杂性。文本在自然场景中的表现形式多样,可能受到光照、遮挡、扭曲等因素的影响,导致识别难度增加。其次,在数据集的构建过程中,研究人员需要处理来自不同来源的数据,这些数据的标注格式、语言类型、图像质量等存在显著差异。为了确保数据集的一致性和可用性,研究人员必须进行大量的数据清洗、格式转换和标注统一工作。此外,多语言文本的识别也带来了额外的挑战,尤其是对于非拉丁字符(如中文、阿拉伯文)的识别,需要更复杂的模型和算法支持。
常用场景
经典使用场景
OCR_DataSet广泛应用于光学字符识别(OCR)领域,特别是在多语言文本检测和识别任务中。该数据集集成了多个国际知名的文本识别竞赛数据集,如ICDAR2015和MLT2019,提供了丰富的场景文本图像和精确的文本标注,适用于训练和测试深度学习模型,以提升模型在复杂背景下的文本识别能力。
衍生相关工作
基于OCR_DataSet,研究者们已经开发出多种先进的文本识别模型,如基于深度学习的端到端文本识别系统和多任务学习框架。这些模型不仅在学术研究中取得了突破,也被广泛应用于商业产品中,如百度的中文场景文字识别技术,这些技术的进步直接受益于OCR_DataSet提供的丰富训练数据。
数据集最近研究
最新研究方向
在光学字符识别(OCR)领域,OCR_DataSet的整合与标准化为研究者提供了丰富的多语言、多场景文本数据资源。近年来,随着深度学习技术的飞速发展,OCR技术在处理复杂背景、多语言混合及不规则文本方面取得了显著进展。研究者们正致力于利用该数据集中的多样化数据,如ICDAR2015、MLT2019等,探索更高效的文本检测与识别算法。特别是在自然场景文本识别(STR)领域,如何提升模型在低质量图像、模糊文本及多语言环境下的泛化能力,已成为当前研究的热点。此外,数据增强技术、自监督学习及跨语言迁移学习等新兴方法,也在该数据集的推动下得到了广泛应用,进一步推动了OCR技术的边界扩展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作