Mushaf Database

github2026-04-10 更新2026-04-25 收录

下载链接：

https://github.com/mushafdatabase/MushafDatabase-Ligature-Based-SVG

下载链接

链接失效反馈

官方服务：

资源简介：

Mushaf数据库存储了神圣的古兰经，作为一个包含604个SVG文档的语料库，每个SVG文件对应麦地那Mushaf的一个印刷页面。源视觉艺术作品来源于麦地那Mushaf，由King Fahd Glorious Quran Printing Complex发布，使用古兰经复合门户发布的数字Mushaf材料，根据Hafs从Asim的叙述。

The Mushaf Database stores the Holy Quran as a corpus comprising 604 SVG documents, where each SVG file corresponds to a printed page of the Madinah Mushaf. The source visual artwork is derived from the Madinah Mushaf, published by the King Fahd Glorious Quran Printing Complex, utilizing digital Mushaf materials released through the Quran Composite Portal, and is based on the narration of Hafs from Asim.

创建时间：

2026-04-10

原始信息汇总

好的，根据您提供的README文件内容，以下是该数据集的详情总结：

数据集概述：Mushaf Database (基于连字的SVG格式)

Mushaf Database 是一个基于SVG格式的古兰经数据集，旨在为开发者提供一个结构化的、可机器读取的、且能精确还原印刷品视觉效果的604页古兰经数字文档库。

核心信息

数据集规模: 604个SVG文件。
来源: 沙特麦地那法赫德国王古兰经印刷厂对于《哈夫斯传述》（Hafs narration）版本的官方矢量艺术图。
编码: UTF-8。
标准视口: viewBox="0 0 382.68 547.09"。
页面布局: 每页15行。
版本号: 当前版本为 1.0，标识为 data-md-version="1.0"。

设计目标

视觉保真: 通过矢量路径完美保留麦地那古兰经每页的视觉外观。
语义结构化: 提供稳定的ID和元数据，支持DOM级别的查询和开发。
内容区分: 清晰区分古兰经正文与非古兰经装饰元素。
一致性: 确保604个SVG文件的层级结构完全可预测。

主要用途

此数据集适用于需要精确页面渲染和精细结构寻址的项目，典型场景包括：

音频同步高亮与跟读界面
词级交互与搜索索引
教育应用与AI/ML工作流
排版印刷与视觉QA校验

数据结构层级

数据集采用标准化的文档层级结构，通过具有特定id和data-*属性的SVG分组元素（<g>）来组织内容。

根层级 (Root SVG): 每个.svg文件代表一页，包含页面级元数据。
****页面容器 (Page Wrapper)**:
- g#md-page (顶部容器，含 data-page-number)
  - g#md-page-outer (外部区域：章名、页码、卷名、页边标记)
  - g#md-page-inner (内部区域：古兰经正文区域，含 data-rect)
行模型 (Line Model): 每页固定15行，从md-line-01到md-line-15。每行通过data-type属性标识类型（text， surah-name, bismillah， empty）。
词模型 (Word Model):
- 每个古兰经单词由g#md-word-{id}表示。
- 包含丰富的元数据属性：data-surah、data-aya、data-hafs（哈夫斯原词）、data-imlaey（简化拼写）、data-word-index-in-ayah等。
连字与变音符 (Ligatures & Diacritics):
- 连字组 (md-ligature): 包含一个或多个代表字母主体的 <path>，并携带 data-text 属性标识阿拉伯文字片段。
- 变音符组 (md-diacritic): 与连字组并列，包含动符、静符、重音符号等。通过 data-diacritic 标识类型（如：fatha, shadda, maddah）。
经文标记 (Ayah Mark Structure): 使用md-aya-mark前缀独立编码，不同于单词模型。由花饰框 (md-ornament) 和数字 (md-number) 两个子组构成。

非古兰经元素 (Non-Quranic Elements)

外部区域: 包括章名 (md-non-quranic-header-surah-name)、页号 (md-non-quranic-page-number)、卷名 (md-non-quranic-header-juz-name)、以及可选的页边注记（如叩头标记md-non-quranic-margin-sajda）。
内部区域: 包括章名行和太思米行，通过 data-type="surah-name" 或 data-type="bismillah" 进行区分。

其他特殊标记

停歇符号 (Waqf Signs): 在路径级别通过 data-waqf 属性编码，用于定义不同类型的停顿规则（如必须停顿 waqf lazim、允许停顿 waqf jaiz）。

搜集汇总

数据集介绍

构建方式

Mushaf Database的构建基于沙特麦地那穆沙夫出版社（King Fahd Glorious Quran Printing Complex）发布的哈夫斯（Hafs）章法数字印刷资料。原始矢量图稿虽精确呈现穆沙夫页面外观，但缺乏语义结构，大量经文文本几何数据被嵌入组合路径中。本项目通过深度结构转换与重整，将这些矢量艺术分解为可寻址的逻辑单元，包括行、词、连字、音符、韵文标记、叩头标记及页面装饰等。最终形成604个SVG文件的规范语系，每个文件对应穆沙夫一页，采用统一的层级分组、稳定元素标识与数据属性标注，在保留原始印刷精确视觉保真度的同时，赋予页面机器可读的结构化元数据。

使用方法

开发者可直接在支持SVG的环境中加载604个文件之一，通过DOM查询按ID（如md-word-003）或属性（如data-surah="106"）定位特定词单元。典型工作流包括：加载页面SVG，遍历md-line组获取行排序与类型，访问md-word组提取词的文本与元数据，利用md-ligature和md-diacritic实现逐音符高亮或隐藏。对于音频同步朗读应用，可根据data-surah、data-aya与data-word-index-in-ayah建立位置索引。该数据集适用于解析、搜索、高亮、验证、注疏系统、教育与机器学习等高级古兰经软件场景，能够兼顾精确页面渲染与细粒度结构寻址。

背景与挑战

背景概述

Mushaf Database 是一个精心构建的圣地数据集，旨在将《古兰经》的麦地那印刷本（Hafs 传述）以机器可读的矢量文档格式呈现。该项目由 Alif Lam Mim 团队主导，于2026年3月正式发布1.0版本，其核心研究问题在于如何将源自沙特阿拉伯法赫德国王古兰经印刷综合体的复杂书法艺术品，转化为包含行、词、连字、变音符号等语义结构的可编程 SVG 文件。该数据集通过将604页的视觉素材分解为带有稳定标识符和丰富数据属性的层次化组结构，解决了伊斯兰数字人文领域中精确页面保真度与细粒度结构寻址之间的根本矛盾。其影响力横跨音频同步高亮、诵读跟踪界面、词级交互、搜索索引管道、人工智能与机器学习工作流程，为古兰经软件生态奠定了标准化、可验证的数字基石。

当前挑战

该数据集所面临的核心挑战首先源于领域问题的复杂性：古兰经文本的书法特性要求算法既能精确渲染连字和变音符号的视觉外观，又要能区分神圣经文与非古兰经装饰元素（如章节名、卷标），同时还需处理诸如停顿标记（waqf）、叩头标识等特殊符号的语境识别难题。在构建过程中，团队遭遇了显著的技术障碍：原始矢量素材中大量经文几何形状被嵌入为合并路径结构，缺乏可寻址的文本单元，必须通过精细的逆向工程和结构转化来分解为有意义的逻辑组件。此外，确保604页文件在坐标精度（保留两位小数）、层级一致性（15行模型）、元数据稳定性（如data-surah和data-aya属性）以及跨版本兼容性方面达到工业级标准，也对验证、迁移和工具链演化提出了严苛要求。

常用场景

经典使用场景

Mushaf Database最经典的使用场景在于构建高精度、逐字对齐的古兰经诵读跟读与音频同步高亮系统。依托其将每一页麦地那穆沙夫分解为15行、每行词与连字均带有唯一标识符（如data-surah、data-aya、data-hafs）的结构化SVG规范，开发者能够精确获取每个词在页面中的视觉坐标与语义归属，从而实现朗诵音频与文字位置的逐词联动。这一场景不仅要求视觉渲染与原始印刷版别无二致，更依赖于稳定且可机器查询的文档层级，使逐词高亮、暂停标记（waqf）提示与行间导航在用户界面中流畅运行。

解决学术问题

该数据集核心解决了古兰经数字研究领域中印刷文本与结构化元数据长期割裂的学术难题。以往学术界对古兰经做词频统计、语法标注或变体分析时，多依赖纯文本转录（如Uthmanic或Imlaey拼写），而难以精确追溯每个词在特定印刷版本中的视觉形态与版面位置。Mushaf Database将604页矢量图分解为可寻址的连字、变音符号与句号装饰，并附加Hafs拼写与简化拼写双字段，这为计算语言学、文本校勘学和奥马尔学（Qira'at）研究提供了既保持版式真实又支持细粒度结构化查询的数位基础设施。

实际应用

在实际应用中，该数据集驱动了面向穆斯林社群的多款教育与无障碍工具。具体而言，它被用于开发支持逐词同步的移动端古兰经学习应用，帮助非阿拉伯语母语者通过视觉高亮跟随诵读；同时被集成至视觉障碍辅助系统中，通过导出data-text和data-diacritic属性将页面内容转化为语音或盲文输出。此外，印刷与出版机构利用其稳定的data-rect边界框与行编号规范，自动生成符合麦地那穆沙夫版式的批注本、翻译对照本与教学挂图，大幅提升了排版流程的数字化程度。

数据集最近研究