five

OCR_DataSet

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/WenmuZhou/OCR_DataSet
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库收集并整理了多个OCR相关的数据集,包括ICDAR2015、MLT2019、COCO-Text_v2、ReCTS、SROIE、ArT、LSVT等,用于OCR的检测和识别任务。数据集涵盖了多种语言和不同的标注格式,适用于各种OCR实验和研究。

This repository compiles and organizes multiple OCR-related datasets, including ICDAR2015, MLT2019, COCO-Text_v2, ReCTS, SROIE, ArT, and LSVT, for OCR detection and recognition tasks. The datasets encompass a variety of languages and different annotation formats, making them suitable for a wide range of OCR experiments and research.
创建时间:
2020-03-18
原始信息汇总

数据集概述

ICDAR2015

  • 主页: https://rrc.cvc.uab.es/?ch=4
  • 适用情况: 检测&识别
  • 数据情况: 语言: 英文, train:1,000, test:500
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

MLT2019

  • 主页: https://rrc.cvc.uab.es/?ch=15
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:10,000, test:10,000
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, script, transcription

COCO-Text_v2

  • 主页: https://bgshih.github.io/cocotext/
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:43,686, validation:10,000, test:10,000
  • 标注形式: json

ReCTS

  • 主页: https://rrc.cvc.uab.es/?ch=12&com=introduction
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:20,000, test:5,000
  • 标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4, chars: 字符级别的标注, lines: 行级别的标注, transcription: 框内的文字信息, ignore: 0:不忽略,1:忽略

SROIE

  • 主页: https://rrc.cvc.uab.es/?ch=13
  • 适用情况: 检测&识别
  • 数据情况: 语言: 英文, train:699, test:400
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, transcription

ArT

  • 主页: https://rrc.cvc.uab.es/?ch=14
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train: 5,603, test: 4,563
  • 标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription: 框内的文字信息, language: 语言信息, illegibility: 是否模糊

LSVT

  • 主页: https://rrc.cvc.uab.es/?ch=16
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, 全标注, train: 30,000, test: 20,000, 只标注文本, 400,000
  • 标注形式: points: x1,y1,x2,y2,x3,y3,x4,y4…xn,yn, transcription: 框内的文字信息, illegibility: 是否模糊

Synth800k

  • 主页: http://www.robots.ox.ac.uk/~vgg/data/scenetext/
  • 适用情况: 检测&识别
  • 数据情况: 语言: 英文, 800,000
  • 标注形式: imnames: 文件名称, wordBB: 24n,每张图像内的文本框, charBB: 24n,每张图像内的字符框, txt: 每张图形内的字符串

icdar2017rctw

  • 主页: https://blog.csdn.net/wl1710582732/article/details/89761818
  • 适用情况: 检测&识别
  • 数据情况: 语言: 混合, train:8,034, test:4,229
  • 标注形式: 坐标: x1, y1, x2, y2, x3, y3, x4, y4, <识别难易程度>, transcription

MTWI 2018

百度中文场景文字识别

  • 主页: https://aistudio.baidu.com/aistudio/competition/detail/20
  • 适用情况: 识别
  • 数据情况: 语言: 混合, train:未统计, test:未统计
  • 标注形式: h: 图片高度, w: 图片宽度, name: 图片名, value: 图片上文字

mjsynth

  • 主页: http://www.robots.ox.ac.uk/~vgg/data/text/
  • 适用情况: 识别
  • 数据情况: 语言: 英文, 9,000,000
  • 标注形式: -

Synthetic Chinese String Dataset(360万中文数据集)

  • 主页: 链接:https://pan.baidu.com/s/1jefn4Jh4jHjQdiWoanjKpQ 提取码:spyi
  • 适用情况: 识别
  • 数据情况: 语言: 混合, 300k
  • 标注形式: -

英文识别数据大礼包

  • 主页: 链接:https://pan.baidu.com/s/1KSNLv4EY3zFWHpBYlpFCBQ 提取码:rryk
  • 适用情况: 识别
  • 数据情况: 语言: 英文
  • 标注形式: -
搜集汇总
数据集介绍
main_image_url
构建方式
OCR_DataSet数据集的构建方式体现了对多种来源数据的整合与标准化处理。该数据集汇集了来自不同公开数据集的文本检测与识别数据,包括ICDAR2015、MLT2019、COCO-Text_v2等,涵盖了英文、中文及多种混合语言。这些数据集经过统一格式的转换,确保了标注信息的一致性,如坐标点的标准化表示和文字转录的统一格式。此外,数据集还包含了大规模的合成数据,如Synth800k和Synthetic Chinese String Dataset,以增强模型的泛化能力。
使用方法
使用OCR_DataSet数据集时,用户首先需要通过提供的百度云链接下载数据集,并根据实际路径修改标注文件中的路径信息。数据集提供了专门的读取脚本,分别用于检测和识别任务,用户可以根据需要选择合适的脚本进行数据读取和预处理。此外,数据集的README文件中详细列出了各数据集的适用情况、数据情况及标注形式,用户可以根据具体需求选择合适的数据子集进行训练和测试。
背景与挑战
背景概述
OCR_DataSet数据集是由多个知名研究机构和公司合作创建的,旨在解决光学字符识别(OCR)领域的核心问题。该数据集整合了来自不同来源的多种语言文本数据,包括英文、中文及其他混合语言,涵盖了从简单的单词识别到复杂的场景文本检测与识别任务。其创建时间可追溯至近年来,主要研究人员和机构包括但不限于CVC、百度、阿里巴巴等,这些机构在OCR领域具有显著的影响力。OCR_DataSet的推出,极大地推动了OCR技术的发展,为研究人员提供了丰富的数据资源,促进了算法性能的提升和应用场景的扩展。
当前挑战
OCR_DataSet在构建过程中面临了多重挑战。首先,数据集的多样性带来了语言和字符集的复杂性,如何确保不同语言和字符集的识别精度是一个重大挑战。其次,数据集的规模庞大,涉及多个来源的数据整合,数据格式和标注标准的不一致性增加了数据处理的难度。此外,场景文本的多样性和复杂性,如模糊、扭曲、遮挡等,对模型的鲁棒性提出了高要求。最后,数据集的更新和维护也是一个持续的挑战,需要不断引入新的数据和场景以保持其前沿性和实用性。
常用场景
经典使用场景
OCR_DataSet数据集在光学字符识别(OCR)领域中具有广泛的应用。其经典使用场景包括文本检测和识别,涵盖了从简单的英文文本到复杂的混合语言场景。数据集整合了多个知名数据集,如ICDAR2015、MLT2019和COCO-Text_v2,为研究人员和开发者提供了丰富的训练和测试资源。通过这些数据集,用户可以训练和评估各种OCR模型,从基本的字符识别到复杂的场景文本理解。
解决学术问题
OCR_DataSet数据集解决了光学字符识别领域中的多个关键学术问题。首先,它提供了多语言和多场景的数据,有助于解决跨语言和跨场景的OCR模型泛化能力问题。其次,数据集的高质量标注和多样性有助于提升模型的鲁棒性和准确性。此外,数据集的广泛应用促进了OCR技术在不同领域的深入研究,如文档分析、自动驾驶和增强现实等。
实际应用
在实际应用中,OCR_DataSet数据集被广泛用于各种OCR系统的开发和优化。例如,在金融领域,它可以用于自动识别和处理银行支票、发票和合同等文档。在零售业,数据集支持自动化的货架标签和价格标签识别。此外,在文化遗产保护中,OCR技术帮助数字化和保存历史文献和手稿。这些应用显著提高了工作效率和准确性,减少了人工操作的错误和成本。
数据集最近研究
最新研究方向
在光学字符识别(OCR)领域,OCR_DataSet数据集的最新研究方向主要集中在多语言和多场景的文本检测与识别上。随着全球化进程的加速,跨语言和跨文化的文本识别需求日益增长,这促使研究者们探索如何在复杂场景中实现高效、准确的文本识别。OCR_DataSet整合了多种语言和场景的数据集,如ICDAR2015、MLT2019和ReCTS等,为研究提供了丰富的资源。此外,数据集的多样性也推动了模型在不同语言和场景下的泛化能力研究,特别是在处理模糊文本、多语言混合文本以及不同书写风格时的表现。这些研究不仅提升了OCR技术的实际应用价值,也为跨语言信息处理和全球化信息交流提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作