ocr-data

github2025-12-16 更新2025-12-17 收录

下载链接：

https://github.com/craneset/ocr-data

下载链接

链接失效反馈

官方服务：

资源简介：

一个多语言OCR（光学字符识别）数据集仓库，专为细粒度单词级OCR任务设计，提供每张图像的精确单词级边界框注释。每个单词都标注了像素级精确定位，支持文本检测、文本识别和端到端OCR等任务。目前提供阿拉伯语OCR数据集，英语、德语、意大利语和西班牙语的数据集即将发布。

A multilingual OCR (Optical Character Recognition) dataset repository specially designed for fine-grained word-level OCR tasks provides precise word-level bounding box annotations for each image. Each word is annotated with pixel-level accurate positioning, supporting tasks such as text detection, text recognition and end-to-end OCR. Currently, Arabic OCR datasets are available, while datasets for English, German, Italian and Spanish will be released soon.

创建时间：

2025-12-16

原始信息汇总

ocr-data 数据集概述

数据集简介

这是一个多语言光学字符识别数据集仓库。该数据集专为细粒度单词级OCR任务设计，为每张图像提供精确的单词级边界框标注。每个单词都带有像素级精确定位标注，支持文本检测、文本识别和端到端OCR等任务。

可用数据集

目前仅提供阿拉伯语OCR数据集。英语、德语、意大利语和西班牙语数据集即将发布。

阿拉伯语数据集 (v1.0)

部分数据链接：https://drive.google.com/file/d/1Si0wTQ9sDm5744f_gFWEo2cFNzYcgi9i/view?usp=drive_link (仅包含25k页)
完整数据集获取：需联系 deepcolab01[at]gmail.com (非免费)
页面数量：待定
唯一单词数：待定
字体数量：1

数据集结构

数据集根目录包含三个主要文件夹：

1. images/

包含PNG格式的OCR图像。
每张图像都有一个同名的JSON标注文件。
JSON文件精确定义了图像中每个单词的位置。

2. labels/

包含与图像对应的JSON标注文件。
每个JSON文件与其相关图像共享相同的基础文件名。
这些文件使用精确的边界框坐标定义单词级标注。

JSON标注格式示例

json { "0": { "word": "كلمة", "location": { "x": 3927, "y": 481, "w": 397, "h": 170 } } }

word：图像中识别的单词。
location：单词的边界框：
- x, y：左上角坐标
- w, h：边界框的宽度和高度

3. texts/

包含TXT文件。
每个文本文件对应一张图像。
存储与图像内容相关的连续完整文本。

开发路线图

[x] 阿拉伯语OCR数据集
[ ] 英语OCR数据集
[ ] 德语OCR数据集
[ ] 意大利语OCR数据集
[ ] 西班牙语OCR数据集

许可证

使用条款和条件请查看LICENSE文件。

联系

如需访问请求或问题，请在本仓库中提交Issue。

搜集汇总

数据集介绍

构建方式

在光学字符识别领域，数据集的构建质量直接影响模型的性能。本数据集采用精细化的标注策略，针对多语言OCR任务设计，尤其侧重于阿拉伯语文本。构建过程中，通过人工或半自动方式对图像中的每个单词进行像素级边界框标注，确保定位精度。标注信息以JSON格式存储，与图像文件一一对应，同时提供包含连续全文的TXT文件，形成了图像、标注与文本三位一体的数据结构。这种构建方式旨在支持从文本检测到识别的多层次OCR研究需求。

特点

该数据集的核心特点在于其细粒度的单词级标注体系，为光学字符识别任务提供了高精度的空间定位信息。每一张图像都配备了详细的JSON标注文件，其中不仅包含识别出的单词内容，还精确记录了每个单词的边界框坐标，包括左上角位置及宽高尺寸。数据集当前以阿拉伯语为主要语言，并计划扩展至英语、德语、意大利语和西班牙语等多语种版本。这种结构化的标注方式特别适用于需要精确定位和识别的复杂OCR场景，如文档分析和多语言文本处理。

使用方法

使用该数据集时，研究人员可依据其清晰的目录结构进行数据加载。图像文件存放于images目录，对应的JSON标注文件位于labels目录，而连续文本则存储于texts目录。通过读取JSON文件，可以获取每个单词的文本内容及其在图像中的精确位置，进而用于训练或评估文本检测与识别模型。对于端到端的OCR任务，可结合图像与标注信息进行联合建模。数据集采用标准格式，便于集成到主流深度学习框架中，推动多语言OCR技术的进步。

背景与挑战

背景概述

光学字符识别作为计算机视觉与自然语言处理交叉领域的关键技术，其发展历程始终与高质量标注数据集的构建紧密相连。ocr-data数据集由DeepColab团队于近期创建，专注于为细粒度单词级OCR任务提供多语言支持。该数据集的核心研究问题在于解决传统文档分析中文本检测与识别任务在单词级别定位精度不足的难题，通过提供像素级精确的边界框标注，旨在推动端到端OCR系统在复杂多语言场景下的性能提升。目前发布的阿拉伯语版本及其规划中的英语、德语、意大利语和西班牙语扩展，体现了研究团队致力于构建跨语言统一标注框架的愿景，有望为文档数字化、历史档案修复及多语言信息提取等领域提供重要的数据基础。

当前挑战

在OCR研究领域，单词级细粒度识别始终面临诸多挑战：不同语言文字的形态差异巨大，如阿拉伯语的连写特性与复杂变体，对字符分割与边界框标注提出了极高要求；文档图像中存在的字体多样性、光照不均、版面扭曲及背景噪声等因素，进一步增加了文本定位的难度。从数据集构建过程来看，生成像素级精确的单词标注需要耗费大量人工校验成本，尤其在保持多语言标注一致性方面存在显著困难；同时，大规模高质量多语言文档图像的收集与版权清理，以及跨语言文本语义对齐的标注规范制定，均是构建过程中需要克服的实际障碍。

常用场景

经典使用场景

在光学字符识别（OCR）领域，ocr-data数据集以其精细的单词级边界框标注而著称，为多语言文本识别任务提供了关键支持。该数据集特别适用于训练和评估文本检测与识别模型，尤其是在阿拉伯语等复杂脚本的处理中，其像素级定位精度能够有效提升模型对字符形状和布局的敏感性。研究者可借助该数据集进行端到端OCR系统的开发，优化从图像中提取并转换文字信息的完整流程。

实际应用

在实际应用中，ocr-data数据集可广泛应用于数字化档案管理、多语言文档自动处理及智能翻译系统。例如，在阿拉伯语古籍的数字化保存中，该数据集能够训练出高精度的OCR模型，准确识别手写体或印刷体文字，大幅提升文献转换效率。此外，它也为金融、法律等领域的多语言文档分析提供了可靠的数据基础，支持自动化信息提取与跨语言检索。

衍生相关工作

基于ocr-data数据集，学术界已衍生出多项经典研究工作，主要集中在多语言OCR模型优化与端到端识别框架的创新上。例如，研究者利用其精细标注开发了基于深度学习的文本检测网络，提升了阿拉伯语等右向书写语言的识别鲁棒性。同时，该数据集也促进了跨语言迁移学习方法的探索，为低资源语言OCR任务提供了有效的预训练数据源。

以上内容由遇见数据集搜集并总结生成