mualem-recitations-annotated

Hugging Face2025-06-05 更新2025-06-06 收录

宗教文本处理

音频处理

数据链接：

https://huggingface.co/datasets/obadx/mualem-recitations-annotated 数据链接链接失效反馈

官方服务：

资源简介：

该数据集包含《古兰经》的音频朗诵及相关元数据信息。数据集分为moshaf_metadata、reciters_metadata和moshaf_tracks三个部分，分别存储了《古兰经》朗诵的相关信息、朗诵者的信息以及音频文件的信息。数据集中的音频采样率为16000Hz，包含了不同朗诵者的朗诵音频及其元数据。

创建时间：

2025-06-04

原始信息汇总

数据集概述：Mualem Recitations Annotated

数据集基本信息

数据集地址：https://huggingface.co/datasets/obadx/mualem-recitations-annotated
数据格式：Parquet文件
采样率：音频数据统一为16kHz

数据集配置

数据集包含多个配置，主要分为三类：

1. 穆沙夫元数据 (moshaf_metadata)

文件路径：moshaf_pool.parquet
主要特征：
- 基础信息：id、name、path、publisher、comments
- 录音属性：recitation_speed、total_size_mb、total_duraion_minutes
- 技术标注：is_annotated、is_complete、is_downloaded
- 诵经规则标注：包含超过30个阿拉伯语诵经规则特征（如madd_yaa_alayn_alharfy、sakt_man_raq等）
- 来源信息：sources、specific_sources、missing_recitations

2. 诵经者元数据 (reciters_metadata)

文件路径：reciter_pool.parquet
主要特征：
- 诵经者ID和名称：id、arabic_name、english_name
- 国家信息：country_code
- 关联穆沙夫：moshaf_set_ids

3. 音频数据集 (moshaf_x.x)

版本范围：从0.0到26.1共25个版本
文件路径模式：dataset/{version}/train/*.parquet
统一特征：
- 音频数据：16kHz采样率的音频
- 文本数据：tarteel_transcript（序列文本）
- 元数据：
  - 位置信息：sura_or_aya_index、index_type
  - 诵经者信息：reciter_id、reciter_arabic_name、reciter_english_name
  - 穆沙夫信息：moshaf_id、moshaf_name
  - 技术信息：segment_index、sample_rate、duration_seconds

数据特征亮点

全面的诵经规则标注：包含超过30种专业的阿拉伯语诵经规则技术参数
多版本音频数据：提供25个不同版本的诵经音频数据集
双语支持：所有诵经者和穆沙夫信息都包含阿拉伯语和英语名称
详细来源记录：每个数据条目都记录具体来源URL和缺失记录信息

搜集汇总

数据集介绍

构建方式

在伊斯兰教诵经研究领域，mualem-recitations-annotated数据集通过系统化采集多位诵经师的古兰经诵读音频构建而成。数据集采用多版本moshaf配置体系，每个版本均包含16kHz采样率的高质量音频片段及其对应的文本标注。音频数据与经文文本通过精确的时间戳对齐，并标注了imlaey和uthmani两种拼写变体，确保语音与文本的精确对应关系。

使用方法

研究人员可通过HuggingFace数据集库加载特定moshaf配置版本，使用标准数据加载器访问音频序列和对应标注。数据集支持端到端的语音处理流程，包括音频特征提取、语音识别模型训练和诵经风格分析。对于特定研究需求，可联合使用moshaf元数据和诵经师元数据配置，实现多维度的交叉分析。

背景与挑战

背景概述

伊斯兰语音学研究领域长期面临着古兰经吟诵音频数据标准化处理的学术需求，mualem-recitations-annotated数据集应运而生。该数据集由专业宗教音频研究机构构建，专注于收录多版本古兰经吟诵录音及其精细标注，涵盖不同朗诵流派（Rewaya）和发音规则（Tajweed）的声学特征。通过系统整合吟诵者元数据、经文文本对齐与音韵学标注，该数据集为计算语音学与宗教传统保护提供了跨学科研究基础，推动了阿拉伯语语音处理技术在宗教文化遗产数字化领域的应用深化。

当前挑战

古兰经吟诵音频的自动处理面临特殊挑战：传统吟诵规则（如Madd延音、Ghunna鼻音化等）需要精确的声学建模，而不同朗诵流派间的细微差异增加了模式识别难度。数据集构建过程中需克服多方言吟诵者的发音变异问题，确保经文文本与音频帧级对齐的准确性。此外，宗教文本特有的朗诵规则（如Sakt停顿、Idgham连读）要求专业语言学知识参与标注，而大规模音频数据的质量控制与版本一致性维护亦是重要技术难点。

常用场景

经典使用场景

在伊斯兰经学研究中，该数据集为《古兰经》诵读规则的量化分析提供了重要基础。通过标注不同诵读版本的音频数据与文本对应关系，研究者能够系统分析不同诵读流派（Rewaya）在发音延长（Madd）、停顿（Sakt）等规则上的差异，为传统诵读法的数字化保存与比较研究奠定数据基础。

解决学术问题

该数据集有效解决了伊斯兰经学中诵读规则缺乏标准化数据支撑的学术难题。通过提供多版本诵读音频与精细语言学标注，支持了对不同诵读流派声学特征的量化研究，促进了传统诵读法的科学化分析，并为阿拉伯语语音学与计算语言学交叉研究提供了珍贵资源。

实际应用

在实际应用层面，该数据集为智能诵经辅助系统开发提供了核心训练数据。基于该数据集训练的语音识别模型可准确识别诵读错误，辅助学习者掌握标准诵读规则。同时为多媒体古兰经应用提供时间戳对齐支持，实现音频与经文的智能同步播放。

数据集最近研究