mualem-recitations-original

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/obadx/mualem-recitations-original

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个收集了专家诵读的《古兰经》的语料库，用于构建人工智能模型以服务于《古兰经》。数据集包括关于诵读风格的各种特征，例如诵读速度、madd（延长音）的类型以及某些单词的具体规则。数据集分为两个主要配置：moshaf_metadata用于《古兰经》诵读，reciters_metadata用于读者的元数据。数据以parquet和jsonl格式存储，并提供了使用Huggingface Dataset库加载数据的说明。

创建时间：

2025-05-20

原始信息汇总

数据集概述：obadx/mualem-recitations-original

数据集基本信息

许可证: MIT
任务类别: 自动语音识别 (Automatic Speech Recognition)
语言: 阿拉伯语 (ar)
标签: 古兰经 (Quran), 语音 (Speech), ASR
数据规模: 1K<n<10K

数据集配置

1. 古兰经经文元数据 (moshaf_metadata)

数据文件: moshaf_pool.parquet
特征:
- 基本属性: id, name, path, reciter_id, reciter_english_name, reciter_arabic_name, rewaya, publisher
- 技术属性: total_size_mb, total_duraion_minutes, is_complete, is_downloaded, is_annotated
- 诵读规则: 包含超过30个诵读特征，如recitation_speed, madd_monfasel_len, ghonna_lam_and_raa等
- 来源信息: sources, specific_sources

2. 诵读者元数据 (reciters_metadata)

数据文件: reciter_pool.parquet
特征:
- id, english_name, arabic_name, country_code
- moshaf_set_ids (关联的古兰经经文ID列表)

数据内容描述

包含专业诵读者录制的古兰经诵读音频
每个音频文件包含详细的诵读规则元数据
数据组织方式:

. ├── dataset │ ├── {reciter_id}_{moshaf_id} │ │ ├── {sura_or_aya}.mp3 │ │ └── metadata.jsonl

重要说明

数据集仍在开发中
仅标记为is_annotated=True的录音已完成处理
音频以原始格式(如MP3)提供，便于研究人员自由处理

搜集汇总

数据集介绍

构建方式

在伊斯兰经学数字化研究领域，mualem-recitations-original数据集通过系统化采集古兰经诵读音频构建而成。其核心构建流程基于专业诵经师的标准化诵读记录，采用多维度元数据标注体系，涵盖诵读速度、音律规则、发音变体等56个专业属性。数据以Parquet格式结构化存储，每个诵读样本均关联诵经师身份标识、技术参数及原始音频文件路径，并通过质量校验机制确保诵读版本与哈夫斯传述体系的权威性一致。

使用方法

研究人员可通过HuggingFace数据集库的audiofolder加载器直接访问音频文件与元数据。使用时应首先加载moshaf_metadata配置获取诵读规则参数，再结合reciters_metadata中的诵经师背景信息进行交叉分析。典型应用场景包括：基于路径字段调用原始MP3文件进行语音识别模型训练，利用元数据中的音韵学标签构建发音规则验证系统，或通过国家代码与诵读速度字段开展跨文化诵读风格比较研究。对于未完成标注的样本，可通过is_annotated字段进行有效过滤。

背景与挑战

背景概述

在伊斯兰教经典诵读研究领域，mualem-recitations-original数据集作为一项重要的数字资源，由obadx研究团队系统构建。该数据集聚焦于古兰经诵读规则的标准化与数字化，收录了多位资深诵读家的完整诵读录音，并标注了包括诵读速度、停顿规则、字母发音特性等四十余项专业语音特征。其核心价值在于为语音识别技术在宗教文本诵读领域的应用提供了标准化数据支撑，推动了传统诵读艺术与人工智能技术的跨学科融合。

当前挑战

该数据集面临的双重挑战主要体现在领域问题与构建过程两个维度。在领域层面，古兰经诵读规则具有高度复杂性，需精确处理包括连续诵读与停顿规则、字母同化现象、特殊音节延长等传统诵读法则的数字化建模。构建过程中，团队需克服多方言诵读者的发音差异、历史录音的音频质量不均、以及传统诵读规则与现代语音标注体系的术语对应等难题，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在伊斯兰圣训学与语音技术交叉领域，Mualem-recitations-original数据集为《古兰经》诵读规则（Tajweed）的数字化研究提供了核心素材。该数据集系统收录了多位著名诵读家的完整诵经音频及其韵律标注，常用于构建智能诵经辅助系统，通过分析madd_monfasel_len（分离延长音长度）、sakt_iwaja（特定词语停顿）等声学特征，自动检测诵读是否符合哈夫斯传述体系的规范要求。

解决学术问题

该数据集有效解决了传统伊斯兰语音学研究中依赖人工听觉检验的局限性，为诵读规则的量化分析提供了数据基础。通过标注不同诵读家对madd_mottasel_waqf（连接延长音停顿）等复杂规则的实践差异，支持了诵读流派比较研究中的客观性论证，推动了计算语言学与经典诵读学的跨学科融合，对保存非物质文化遗产具有重要学术价值。

实际应用

在实际应用层面，该数据集支撑了多项智能宗教服务工具的研发。例如基于ghonna_lam_and_raa（鼻音化规则）特征构建的发音纠正系统，可实时指导初学者掌握标准诵读；利用recitation_speed（诵读速度）分层数据开发的自适应学习平台，能为不同水平的学习者提供个性化训练方案，显著提升了宗教教育的数字化水平。

数据集最近研究