arabic-ocr

Hugging Face2026-01-06 更新2026-01-07 收录

下载链接：

https://huggingface.co/datasets/craneset/arabic-ocr

下载链接

链接失效反馈

官方服务：

资源简介：

Alshams是目前最大的阿拉伯语单词级别OCR数据集，专门为细粒度的单词级别OCR任务设计，提供了精确的单词级别边界框标注。每个单词都有像素级精确定位，支持文本检测、文本识别和端到端OCR等任务。数据集包含阿拉伯语版本v1.0和v2.0，总页数超过100万页，使用6种不同字体。数据集结构分为images（存储PNG格式图像）、labels（存储JSON格式标注文件）和texts（存储TXT格式文本内容）三个主要目录。标注文件包含单词内容和位置信息（边界框坐标）。

Alshams is currently the largest word-level Arabic OCR dataset, specifically tailored for fine-grained word-level OCR tasks and equipped with precise word-level bounding box annotations. Each word features pixel-level accurate localization, supporting tasks including text detection, text recognition, and end-to-end OCR. The dataset provides two Arabic versions, v1.0 and v2.0, with over 1 million total pages and 6 distinct fonts utilized. The dataset is structured into three primary directories: images (for storing PNG-format images), labels (for storing JSON-format annotation files), and texts (for storing TXT-format text contents). The annotation files contain word content and positional information (bounding box coordinates).

创建时间：

2026-01-05

原始信息汇总

Alshams 阿拉伯语OCR数据集概述

数据集基本信息

数据集名称: Alshams, Large Arabic OCR dataset at word level.
主要用途: 专为细粒度单词级OCR任务设计，适用于文本检测、文本识别和端到端OCR。
核心特点: 提供精确的单词级边界框标注，每个单词具有像素级精确定位。
语言: 阿拉伯语 (ar)
许可证: MIT
标签: ocr, arabic-ocr, word-level-ocr, large-dataset

可用数据集版本与技术规格

语言	版本	链接 (部分页面样本)	页面总数	唯一单词数	字体数量	完整数据集获取方式
阿拉伯语	v1.0	https://drive.google.com/file/d/1PZ2VmHQBOPTrMpBf8ZFKSBjQFmcqPu1f/view?usp=drive_link	~521K	3,012,869	1	联系邮箱: craneset[at]outlook.com [非免费]
阿拉伯语	v2.0	https://drive.google.com/file/d/11YzGrGmAjJTFY-hX2KGQJktK2peQhhbd/view?usp=drive_link	~534K	2,502,545	5	联系邮箱: craneset[at]outlook.com [非免费]

备注:

阿拉伯语数据集总量超过100万页，包含6种独立字体。
唯一单词数已去除数字和标点符号后计算得出。
样本文件夹中包含每种字体的示例。

数据集结构

数据集根目录 (ocr-data/) 包含三个主要文件夹：

1. images/

内容: PNG格式的OCR图像。
关联文件: 每张图像都有一个同名的JSON标注文件，用于精确定义图像中每个单词的位置。

2. labels/

内容: 与图像对应的JSON标注文件。
标注内容: 定义单词级标注，包含精确的边界框坐标。
标注格式: json { "索引": { "word": "单词文本", "location": { "x": 左上角X坐标, "y": 左上角Y坐标, "w": 边界框宽度, "h": 边界框高度 } } }

3. texts/

内容: TXT文件。
关联关系: 每个文本文件对应一张图像。
存储内容: 与图像内容相关的连续（完整）文本。

未来计划

[x] 阿拉伯语OCR数据集
[ ] 英语OCR数据集
[ ] 德语OCR数据集
[ ] 意大利语OCR数据集
[ ] 西班牙语OCR数据集

使用与联系

许可证详情: 请查看项目中的 LICENSE 文件。
贡献: 欢迎提交贡献、问题或功能请求。
数据集访问咨询: 请在本代码仓库中提交Issue。

搜集汇总

数据集介绍

构建方式

在光学字符识别领域，阿拉伯语文本因其独特的连写形式和丰富的字形变化，对数据集的构建提出了较高要求。阿拉伯语OCR数据集Alshams通过系统化的流程构建而成，其基础来源于超过一百万页的阿拉伯语文档，涵盖了六种不同的字体风格。数据标注过程采用了精细化的词级边界框标注策略，为每幅图像中的每个单词提供了像素级精确定位，确保了标注信息的准确性与一致性。该数据集在构建过程中还进行了数据清洗，移除了数字和标点符号，以提升数据质量。

使用方法

研究人员和开发者可通过下载提供的部分样本或联系作者获取完整数据集以使用该资源。数据集的使用通常涉及加载图像及其对应的JSON标注文件，解析其中的单词文本和边界框信息。这些结构化数据可直接用于训练和评估深度学习模型，例如基于卷积神经网络的文本检测器或结合了循环神经网络的序列识别模型。数据集附带的纯文本文件也为语言模型训练或其他自然语言处理任务提供了便利。

背景与挑战

背景概述

阿拉伯语光学字符识别（OCR）技术是文档数字化与多语言信息处理领域的关键研究方向，尤其在处理复杂书写系统时面临独特挑战。阿拉伯语OCR数据集arabic-ocr由Alshams团队创建，旨在为细粒度词级OCR任务提供大规模、高精度的标注资源。该数据集包含超过一百万页图像，涵盖六种独立字体，并采用像素级边界框标注，支持文本检测、识别及端到端OCR系统开发。其构建不仅填补了阿拉伯语词级OCR数据资源的空白，也为推动多语言文档分析、历史文献数字化及智能信息检索等应用提供了重要基础。

当前挑战

阿拉伯语OCR领域面临的核心挑战在于其复杂的书写特性，如连字形式、上下文敏感的字符变形以及从右至左的书写方向，这些因素显著增加了字符分割与识别的难度。在数据集构建过程中，挑战主要体现在大规模数据采集与标注的复杂性上，包括获取多样化的字体样本、确保标注边界框的像素级精度，以及处理海量页面中词汇的独特性和标点数字的过滤。此外，数据集的完整版本获取受限，可能影响其在学术社区的广泛可及性与后续研究的可复现性。

常用场景

经典使用场景

在光学字符识别领域，阿拉伯语因其独特的连写形式和丰富的字形变化，对OCR技术提出了特殊挑战。该数据集通过提供超过一百万页的阿拉伯语图像及其精确的单词级边界框标注，成为训练和评估细粒度OCR模型的经典资源。研究人员利用其海量标注数据，能够构建鲁棒的文本检测与识别系统，特别是在处理复杂版面布局和多样化字体时，数据集的高质量标注为模型性能的精准优化提供了坚实基础。

解决学术问题

该数据集有效应对了阿拉伯语OCR研究中长期存在的标注数据稀缺问题。其单词级的像素精确定位标注，为学术界解决了文本检测与识别任务中细粒度对齐的难题，促进了端到端OCR系统的发展。通过提供大规模、多字体的真实场景数据，它支持了跨字体泛化能力、低资源语言处理以及复杂文本布局理解等核心研究议题，显著推动了自然语言处理与计算机视觉交叉领域的学术进展。

实际应用

在实际应用层面，该数据集支撑的OCR技术已广泛应用于阿拉伯语文档数字化、历史档案保护、智能办公自动化以及多语言信息检索系统。例如，在文化遗产领域，它助力于将古老的阿拉伯语手稿或印刷文献转化为可搜索、可编辑的数字文本；在教育与出版行业，则赋能于教材的快速电子化与无障碍访问，极大地提升了信息流通效率与知识传播的广度。

数据集最近研究