omnianasa/The-Six-Hadeeth-Books-Dataset
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/omnianasa/The-Six-Hadeeth-Books-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为六大圣训集数据集,是一个大规模收集约24,000张图像的集合,代表了六大主要的圣训书籍(Al-Kutub al-Sittah)。它专门用于支持古典阿拉伯文字的光学字符识别(OCR)和布局分析研究。每张图像遵循系统化的命名模式,便于程序化数据加载。数据集包含六本书籍的图像,每本书籍的文件数量、语言(阿拉伯语)、许可证(MIT)以及数据集的使用建议等信息均已在README中详细说明。
This dataset, named The Six Hadeeth Books Dataset, is a large-scale collection of ~24,000 images representing the primary six books of Hadeeth (Al-Kutub al-Sittah). It is specifically curated to support research in Optical Character Recognition (OCR) and layout analysis for classical Arabic typography. Each image follows a systematic naming pattern to help in programmatic data loading. The dataset includes images from six books, with detailed information on the number of files per book, language (Arabic), license (MIT), and usage recommendations provided in the README.
提供机构:
omnianasa
搜集汇总
数据集介绍

构建方式
该数据集汇集了伊斯兰教逊尼派六大圣训集(Al-Kutub al-Sittah)的约24,000余幅扫描图像,涵盖《布哈里圣训实录》《穆斯林圣训实录》《艾布·达乌德圣训集》《提尔米济圣训集》《奈萨仪圣训集》与《伊本·马哲圣训集》六部经典。图像按照统一的命名规范进行组织,格式为{书号}_{卷号}_{页码}.png,其中卷号以00代表单卷本或搜索中的主要封面,便于程序化加载与批量处理。每部著作独立成目录,文件数量从2,302至5,745不等,总计约24,668张图像。
特点
该数据集以高分辨率古典阿拉伯文印刷体图像为核心,专为光学字符识别(OCR)与版面分析任务而设计。图像涵盖六部权威圣训集的不同卷册与页面,呈现了阿拉伯书法与古典排版中丰富的字符样式、版面布局及装饰元素。数据集采用MIT开源许可,支持学术研究与模型开发,但需注意其内容为宗教典籍,不应用于现代标准阿拉伯文手写识别,且不得用于未经学者认证的宗教判例解读。
使用方法
数据集适用于训练和微调面向阿拉伯文宗教文本的OCR模型,开发者可通过HuggingFace Datasets库加载默认配置,利用image特征列读取图像,结合label列中六个类别的分类标签(bukhari、muslim、abodwd等)进行监督学习。建议将图像与文本标注配对以构建图像到文本的转换任务,亦可作为古典阿拉伯文版面分析基准。使用时需注意模型输出仅作学术参考,不得直接用于宗教裁决。
背景与挑战
背景概述
在伊斯兰学术传统中,六大圣训集(Al-Kutub al-Sittah)作为仅次于《古兰经》的权威宗教文献,承载着深厚的宗教与历史价值。然而,这些经典手稿与古籍的数字化进程受到古典阿拉伯语排版复杂性、手抄本风格多样性及版面结构不统一的显著制约。为此,The-Six-Hadeeth-Books-Dataset数据集于近年由研究者Omnia Nasa等机构创建,专门收录了布哈里、穆斯林等六大圣训集的约24,000张高质量图像。该数据集聚焦于光学字符识别(OCR)与版面分析的研究难题,旨在推动古典阿拉伯语宗教文本的自动化识别与数字化保存,对计算语言学和伊斯兰文献学领域产生了重要影响。
当前挑战
该数据集面临的核心挑战包括:其一,古典阿拉伯语字体中存在大量连字、变体符号和复杂排版规则,与现代标准阿拉伯语差异显著,对OCR模型的泛化能力构成严峻考验。其二,圣训集经卷常包含多栏布局、注释区及印章等非标准版面结构,导致自动版面分割与文本行提取极为困难。其三,数据采集过程中需从不同版本的手稿和印刷本中获取图像,部分页面存在模糊、污损或光照不均等质量问题,增加了预处理的复杂度。此外,构建过程还涉及如何系统化命名以支持程序化加载,维护跨卷册与跨版本的图像一致性,确保数据集的可复现性和扩展性。
常用场景
经典使用场景
在伊斯兰文化与古典阿拉伯语文字处理的交叉领域中,六大圣训集(Al-Kutub al-Sittah)作为伊斯兰教义的重要文献载体,其数字化与文本提取一直是学术研究的焦点。该数据集汇聚了布哈里、穆斯林等六部经典圣训集约24,000余页扫描图像,为光学字符识别(OCR)与版面分析任务提供了标准化的训练与评测基准。研究者可借助这些图像-文本对,系统性地训练模型识别古典阿拉伯语手写体排印风格,尤其适用于深度学习框架下的序列标注与图像到文本生成任务。
解决学术问题
此数据集有效应对了古典阿拉伯语OCR领域长期面临的数据稀缺与标注不一致的核心挑战。通过提供统一命名规范、分卷清晰的大规模图像集合,它助力学者攻克了多字体变体、历史文献版面噪声以及跨页文字连续性识别等学术难题。其意义在于推动宗教文献自动化转录技术的发展,为后续的伊斯兰古籍数字化、语义索引与跨语料库对齐研究奠定了坚实基础,进而加速了阿拉伯文化遗产的数字化保存进程。
衍生相关工作
基于此数据集,研究者已衍生出多项重要工作。例如,针对古典阿拉伯语字体定制的预训练语言模型与端到端OCR框架,显著提升了低资源场景下的文本识别精度。此外,版面分析与段落分割模型的改进工作,也受益于该数据集提供的复杂多栏布局标注。更进一步,跨数据集迁移学习的研究探索了该圣训图像集与现代阿拉伯语文本识别的泛化能力,推动了宗教文献与通用NLP任务的融合创新。
以上内容由遇见数据集搜集并总结生成



