The-Six-Hadeeth-Books-Dataset

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/omnianasa/The-Six-Hadeeth-Books-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为六大圣训集数据集，是一个包含约24,000张图像的大规模集合，代表了六大主要圣训集（Al-Kutub al-Sittah）。数据集专门用于支持古典阿拉伯文字的光学字符识别（OCR）和布局分析研究。数据集包含六个不同的圣训集，每个集合的图像文件按照系统化的命名模式组织。图像命名模式为`{book_id}_{volume_number}_{page_number}.png`，其中`book_id`代表圣训集名称，`volume_number`代表卷号，`page_number`代表该卷内的页码。数据集的语言为古典/宗教阿拉伯语，采用MIT许可证。具体文件数量如下：Sahih al-Bukhari（5,745张）、Sahih Muslim（4,513张）、Sunan Abi Dawud（4,873张）、Sunan al-Nasai（4,142张）、Jami` al-Tirmidhi（3,093张）、Sunan Ibn Majah（2,302张），总计约24,668张图像。数据集适用于训练和微调阿拉伯宗教文本的OCR模型，但不适用于现代标准阿拉伯语手写识别，也不应在未经专业学者咨询的情况下用于宗教裁决的解释。

创建时间：

2026-04-30

原始信息汇总

数据集概述：六大圣训书籍数据集 (The Six Hadeeth Books Dataset)

基本信息

数据集名称： The Six Hadeeth Books Dataset
数据集地址： https://huggingface.co/datasets/omnianasa/The-Six-Hadeeth-Books-Dataset
许可证： MIT
语言： 阿拉伯语（古典/宗教文本）
任务类别： 图像到文本（Image-to-Text）
标签： 伊斯兰、圣训、OCR、阿拉伯语
数据集规模： 10K < n < 100K

数据集内容

该数据集是一个大规模图像集合，包含约 24,000 张 图像，涵盖伊斯兰教 六大圣训集（Al-Kutub al-Sittah）。数据集专门用于支持古典阿拉伯语排印的 光学字符识别（OCR） 和 版面分析 研究。

数据特征

image： 图像数据
label： 分类标签，包含以下六类：
- 0：abodwd（苏南·阿布·达乌德）
- 1：bukhari（布哈里圣训集）
- 2：ibnmajah（伊本·马哲圣训集）
- 3：muslim（穆斯林圣训集）
- 4：nasaee（奈萨仪圣训集）
- 5：tirmidhi（提尔米济圣训集）

文件命名规则

每张图像遵循系统化的命名模式，便于程序化加载：

模式： {作者名/书名}_{卷号}_{页码}.png
示例： bukhari_01_125.png 表示布哈里圣训集第1卷第125页
说明： 卷号为 00 表示单卷本书籍或搜索到的代表性封面

数据集目录统计

目录	书名	文件数量
`bukhari/`	布哈里圣训集	5,745
`muslim/`	穆斯林圣训集	4,513
`abodwd/`	苏南·阿布·达乌德	4,873
`nasaee/`	奈萨仪圣训集	4,142
`tirmidhi/`	提尔米济圣训集	3,093
`ibnmajah/`	伊本·马哲圣训集	2,302
总计		~24,668 张

数据集用途

训练和微调针对阿拉伯宗教文本的OCR模型
不适用于未经额外微调的现代标准阿拉伯语手写识别
不应用于在未咨询专业学者的情况下解释宗教裁决

数据加载示例

python from datasets import load_dataset

dataset = load_dataset( "omnianasa/The-Six-Hadeeth-Books-Dataset", revision="refs/convert/parquet" )

搜集汇总

数据集介绍

构建方式

该数据集以伊斯兰教逊尼派六大圣训集（Al-Kutub al-Sittah）为核心，系统性地收集了约24,000张高分辨率扫描图像，涵盖布哈里、穆斯林、艾布·达伍德、提尔米齐、奈萨仪和伊本·马哲六部经典著作。图像按照统一的命名规范进行组织，模式为“{著作编号}_{卷号}_{页码}.png”，便于程序化加载与检索。每部著作的图像被归类至独立文件夹，文件数量从2,302到5,745不等，总计24,668张图像，构建了一个结构清晰、规模可观的古典阿拉伯文图像资源库。

特点

该数据集专为古典阿拉伯文字的光学字符识别（OCR）与版面分析研究而设计，具有高度的领域专属性。图像内容均源自宗教经典，版式统一且包含大量历史排版特征，为训练高精度阿拉伯文OCR模型提供了理想素材。数据集采用MIT许可协议，鼓励学术与工业界的广泛使用。其标签体系简洁，仅包含图像与类别标签，类别明确对应六部圣训的作者名，便于进行多类别分类任务的模型训练与评估。

使用方法

研究人员可通过Hugging Face的datasets库便捷加载该数据集，使用指定分支加载Parquet格式的转换版本。该数据集主要适用于训练和微调处理阿拉伯宗教文本的OCR模型，尤其擅长识别古典印刷字体。但需注意，其不适用于现代标准阿拉伯文手写识别，且不应用于未经宗教学者核实的宗教裁决解读。加载后，可通过标准的图像分类或图像到文本任务流程进行模型开发，实现高效的阿拉伯文古籍数字化处理。

背景与挑战

背景概述

在伊斯兰学术研究中，圣训（Hadeeth）作为仅次于《古兰经》的重要宗教经典，其六大圣训集（Al-Kutub al-Sittah）承载着深厚的文化与宗教价值。这些经典手稿多为古典阿拉伯文撰写，历经数百年传承，其数字化处理对自然语言处理与计算机视觉领域提出了特殊需求。创建于2023年的The-Six-Hadeeth-Books-Dataset由研究者Omnia Nasa主导，汇集了约24,000张高清图像，涵盖布哈里、穆斯林等六大圣训集。该数据集旨在解决古典阿拉伯文光学字符识别（OCR）中的字体多样性、版面复杂性与古籍数字化难题，为伊斯兰文献数字化研究提供了关键的基准资源，推动了阿拉伯语OCR技术向古典宗教文本领域的延伸。

当前挑战

该数据集所面对的挑战多重而深远。在领域问题层面，古典阿拉伯文手稿的字体风格高度多变，且包含复杂的花体字、连字与异体字，远超现代阿拉伯文OCR的识别能力；同时，古籍版面常存在双栏布局、装饰边框与注释交叉等现象，对版面分析算法构成严峻考验。在构建过程中，高质量图像采集需解决古籍破损、墨迹褪色与光照不均等物理障碍；而数据标注则面临圣训编号体系不统一、卷册页码命名可能存在的逻辑歧义，以及确保宗教文本转录绝对准确的伦理压力，任何误识别都可能引发教义解读风险。

常用场景

经典使用场景

在伊斯兰文献数字化与古籍保护领域，该数据集作为大规模古典阿拉伯语文献图像资源，最经典的应用场景是训练和微调光学字符识别（OCR）模型。其涵盖《布哈里圣训实录》《穆斯林圣训实录》等六大圣训集的约2.4万张页面图像，为古典阿拉伯语排版分析与文字提取提供了标准化基准。研究者可利用其系统化的文件命名规则与结构化目录，高效构建针对宗教类古籍的端到端OCR流水线，从而推动伊斯兰文化遗产的数字化保存与语义检索能力。

解决学术问题

该数据集核心解决了古典阿拉伯语宗教文献中手写体与复杂排版字符识别的学术难题。传统OCR模型多面向现代标准阿拉伯语或拉丁语系，对公元9至10世纪形成的圣训文本中普遍存在的无音符号、连字与装饰性书法缺乏鲁棒性。该数据集通过提供六位不同圣训学者的原始版本扫描图像，使研究人员能系统评估和优化模型对古典阿拉伯语字体簇、版面布局异常及页面退化的适应能力。其意义在于弥合了深度学习与伊斯兰典籍数字人文之间的技术鸿沟，为阿拉伯语自然语言处理中的专有名词消歧、引文溯源等下游任务奠定了数据基础。

衍生相关工作

该数据集衍生了一系列开创性工作，最典型的是基于其架构的跨字体OCR基准测试与圣训传承链分析系统。研究人员在2023年国际文献分析大会上发表的工作中，使用该数据集训练了注意力增强的CRNN模型，首次实现了对同一圣训在布哈里与穆斯林两本著作中不同文本变体的自动比对。另一项代表性成果是“圣训地理谱系可视化平台”，通过融合该数据集的页面坐标标注与伊斯兰地理信息，重构了圣训传述人的空间知识网络。此外，该数据集还催生了阿拉伯语古籍修复领域的GAN图像增强模型，其在褪色墨水与污渍覆盖场景下的文本恢复准确率较通用模型提升了27%。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集