five

OCR_DataSet

收藏
github2022-12-22 更新2024-05-31 收录
下载链接:
https://github.com/yang-gis/OCR_DataSet
下载链接
链接失效反馈
官方服务:
资源简介:
收集并整理有关OCR的数据集并统一标注格式,以便实验需要。包含多个数据集,如ICDAR2015、MLT2019、COCO-Text_v2等,每个数据集都有详细的标注形式和说明。

Collect and organize datasets related to OCR (Optical Character Recognition) and standardize the annotation format for experimental purposes. It includes multiple datasets such as ICDAR2015, MLT2019, COCO-Text_v2, etc., each with detailed annotation formats and descriptions.
创建时间:
2020-06-28
原始信息汇总

数据集概述

ICDAR2015

  • 主页: https://rrc.cvc.uab.es/?ch=4
  • 适用情况: 检测&识别
  • 数据情况: 语言: 英文, train:1,000, test:500
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

MLT2019

  • 主页: https://rrc.cvc.uab.es/?ch=15
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:10,000, test:10,000
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, script, transcription

COCO-Text_v2

  • 主页: https://bgshih.github.io/cocotext/
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:43,686, validation:10,000, test:10,000
  • 标注形式: json

ReCTS

  • 主页: https://rrc.cvc.uab.es/?ch=12&com=introduction
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:20,000, test:5,000
  • 标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4, chars: 字符级别的标注, lines: 行级别的标注, transcription : 框内的文字信息, ignore: 0:不忽略,1:忽略

SROIE

  • 主页: https://rrc.cvc.uab.es/?ch=13
  • 适用情况: 检测&识别
  • 数据情况: 语言: 英文, train:699, test:400
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

ArT

  • 主页: https://rrc.cvc.uab.es/?ch=14
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train: 5,603, test: 4,563
  • 标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription : 框内的文字信息, language: 语言信息, illegibility: 是否模糊

LSVT

  • 主页: https://rrc.cvc.uab.es/?ch=16
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, 全标注, train: 30,000, test: 20,000, 只标注文本, 400,000
  • 标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription : 框内的文字信息, illegibility: 是否模糊

Synth800k

  • 主页: http://www.robots.ox.ac.uk/~vgg/data/scenetext/
  • 适用情况: 检测&识别
  • 数据情况: 语言: 英文, 800,000
  • 标注形式: imnames: 文件名称, wordBB: 24n,每张图像内的文本框, charBB: 24n,每张图像内的字符框, txt: 每张图形内的字符串

icdar2017rctw

  • 主页: https://blog.csdn.net/wl1710582732/article/details/89761818
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:8,034, test:4,229
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, <识别难易程度>, transcription

MTWI 2018

百度中文场景文字识别

  • 主页: https://aistudio.baidu.com/aistudio/competition/detail/20
  • 适用情况: 识别
  • 数据情况: 语言: 混合, train:未统计, test:未统计
  • 标注形式: h: 图片高度, w: 图片宽度, name: 图片名, value: 图片上文字

mjsynth

  • 主页: http://www.robots.ox.ac.uk/~vgg/data/text/
  • 适用情况: 识别
  • 数据情况: 语言: 英文, 9,000,000
  • 标注形式: -

Synthetic Chinese String Dataset(360万中文数据集)

  • 主页: 链接:https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码:spyi
  • 适用情况: 识别
  • 数据情况: 语言: 混合, 300k
  • 标注形式: -

英文识别数据大礼包

  • 主页: 链接:https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码:rryk
  • 适用情况: 识别
  • 数据情况: 语言: 英文
  • 标注形式: -
搜集汇总
数据集介绍
main_image_url
构建方式
OCR_DataSet的构建过程涵盖了多个公开数据集,包括ICDAR2015、MLT2019、COCO-Text_v2等,这些数据集均经过统一格式转换,确保了数据的一致性和可用性。每个数据集均提供了详细的标注信息,如文本框坐标和文字内容,部分数据集还包含了语言信息和文字模糊度等额外标注。数据集的构建不仅依赖于公开数据,还通过数据生成工具进一步扩充了数据规模,特别是中文场景文字识别数据。
使用方法
OCR_DataSet的使用方法较为灵活,用户可以通过提供的百度云链接下载数据集,并使用附带的读取脚本进行数据加载。数据集分为检测和识别两类任务,分别提供了det.py和rec.py脚本用于读取数据。用户可以根据任务需求选择相应的数据集进行训练和测试。此外,数据集的标注信息以JSON格式存储,便于用户进行自定义处理和扩展。对于中文场景文字识别任务,数据集还提供了额外的中文数据生成工具,用户可以根据需求生成更多训练样本。
背景与挑战
背景概述
OCR_DataSet是一个专注于光学字符识别(OCR)领域的数据集集合,涵盖了多种语言和场景的文本检测与识别任务。该数据集由多个子数据集组成,包括ICDAR2015、MLT2019、COCO-Text_v2等,涵盖了从英文到中文的多种语言环境。这些数据集由多个研究机构和竞赛平台共同创建,旨在推动OCR技术在复杂场景中的应用。OCR_DataSet的创建时间跨度较大,最早的子数据集如ICDAR2015可追溯至2015年,而较新的数据集如MLT2019则于2019年发布。这些数据集在OCR领域的研究中具有重要影响力,尤其是在多语言、多字体、复杂背景下的文本识别任务中,为算法模型的训练与评估提供了丰富的资源。
当前挑战
OCR_DataSet面临的挑战主要集中在两个方面。首先,数据集所解决的领域问题——文本检测与识别——本身具有极高的复杂性。文本在图像中的表现形式多样,可能受到光照、角度、字体、背景复杂度等因素的影响,导致识别难度增加。特别是在多语言混合场景中,不同语言的字符结构和书写方式差异显著,进一步增加了识别的挑战性。其次,在数据集的构建过程中,研究人员需要处理大量的图像数据,并进行精确的文本标注。标注过程中,文本的边界框、字符位置、语言类型等信息需要高度准确,这对标注工具和人工标注的质量提出了极高的要求。此外,数据集的多样性和规模也对存储、处理和分发提出了技术挑战,尤其是在跨平台和跨语言环境下,如何确保数据的一致性和可用性是一个亟待解决的问题。
常用场景
经典使用场景
OCR_DataSet广泛应用于光学字符识别(OCR)领域,特别是在多语言文本检测和识别任务中。该数据集包含了多种语言的文本图像,如英文、中文等,适用于训练和评估OCR模型。通过提供丰富的标注信息,如字符位置和文本内容,OCR_DataSet为研究人员提供了一个标准化的测试平台,用于验证和改进OCR算法的性能。
解决学术问题
OCR_DataSet解决了OCR领域中多语言文本检测和识别的关键问题。通过整合多个公开数据集,如ICDAR2015、MLT2019等,该数据集为研究人员提供了多样化的训练和测试数据,有助于提升模型在不同语言和场景下的泛化能力。此外,数据集的统一格式和标注标准简化了数据预处理步骤,使得研究者能够更专注于算法优化和模型训练。
实际应用
在实际应用中,OCR_DataSet被广泛用于开发智能文档处理系统、自动化数据录入工具以及多语言翻译服务。例如,在金融领域,该数据集可用于自动识别和提取银行票据、发票等文档中的关键信息;在零售行业,OCR_DataSet支持商品标签的自动识别,提升库存管理效率。这些应用场景展示了OCR_DataSet在提升业务流程自动化和智能化方面的巨大潜力。
数据集最近研究
最新研究方向
在光学字符识别(OCR)领域,OCR_DataSet的整合与标准化为研究者提供了丰富的多语言、多场景文本数据,极大地推动了文本检测与识别技术的发展。近年来,基于深度学习的端到端文本识别模型成为研究热点,尤其是结合Transformer架构的模型在处理复杂场景文本时表现出色。此外,多语言混合数据的处理能力也成为研究重点,特别是在跨语言文本识别和低资源语言支持方面。OCR_DataSet中包含的多种数据集(如ICDAR2015、MLT2019、ReCTS等)为这些研究提供了坚实的基础,推动了OCR技术在文档数字化、自动驾驶、智能安防等领域的广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作