muaalem-annotated-v3

Hugging Face2025-08-25 更新2025-08-26 收录

下载链接：

https://huggingface.co/datasets/obadx/muaalem-annotated-v3

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个配置的数据集，每个配置都包含音频特征、段索引、转录文本以及关于古兰经诵读的元数据。每个配置都具有相似的特征，但在示例数量和数据集大小上有所不同。数据集似乎专注于带有详细注释的古兰经诵读。

创建时间：

2025-08-24

原始信息汇总

数据集概述

基本描述

该数据集包含多个配置版本的古兰经音频朗诵数据，每个配置对应不同的朗诵版本（moshaf）。数据集主要用于语音处理和古兰经朗诵研究。

配置版本

数据集包含以下11个配置版本：

moshaf_0.0
moshaf_0.1
moshaf_0.2
moshaf_0.3
moshaf_1.0
moshaf_2.0
moshaf_2.1
moshaf_11.0
moshaf_12.0
moshaf_13.0
moshaf_19.0

数据特征

音频特征

音频采样率：16000 Hz
音频格式：音频数据类型

元数据特征

片段索引（segment_index）：字符串类型
Tarteel转录文本（tarteel_transcript）：字符串序列
朗诵版本ID（moshaf_id）：字符串类型
朗诵版本名称（moshaf_name）：字符串类型
朗诵者ID（reciter_id）：整型
朗诵者阿拉伯语名称（reciter_arabic_name）：字符串类型
朗诵者英语名称（reciter_english_name）：字符串类型
章节或经文索引（sura_or_aya_index）：字符串类型
索引类型（index_type）：字符串类型
样本率（sample_rate）：整型
持续时间秒数（duration_seconds）：浮点型
时间戳秒数（timestamp_seconds）：浮点型序列

文本特征

拼写文本（imlaey）：字符串类型
奥斯曼文本（uthmani）：字符串类型
音素（phonemes）：字符串类型

布尔标志

包含古兰经（has_quran）：布尔型
包含起始祈祷（has_istiaatha）：布尔型
包含奉名句（has_bismillah）：布尔型
包含结束语（has_sadaka）：布尔型

跨度信息

起始跨度（start_span）：结构体，包含章节索引、经文索引、拼写索引、奥斯曼索引
结束跨度（end_span）：结构体，包含章节索引、经文索引、拼写索引、奥斯曼索引

匹配指标

匹配比例（match_ratio）：浮点型

语音属性（sifat）

包含11个语音学属性：

鼻音（ghonna）
气息音或响亮音（hams_or_jahr）
延长音（istitala）
闭合音（itbaq）
音素（phonemes）
弹舌音（qalqla）
哨音（safeer）
重音或轻音（shidda_or_rakhawa）
扩散音（tafashie）
厚音或薄音（tafkheem_or_taqeeq）
重复音（tikraar）

数据统计

各配置数据量

moshaf_0.0：9,133个样本，3.11 GB
moshaf_0.1：10,764个样本，4.38 GB
moshaf_0.2：9,971个样本，5.36 GB
moshaf_0.3：12,604个样本，4.04 GB
moshaf_1.0：10,939个样本，3.10 GB
moshaf_2.0：9,942个样本，5.53 GB
moshaf_11.0：10,363个样本，2.63 GB
moshaf_12.0：9,880个样本，3.64 GB
moshaf_13.0：9,377个样本，3.70 GB
moshaf_19.0：11,278个样本，3.28 GB

总体统计

总样本量：约104,791个音频片段
总数据大小：约43.25 GB
下载大小：约42.35 GB

数据分割

所有配置版本仅包含训练集（train split）

数据来源

https://huggingface.co/datasets/obadx/muaalem-annotated-v3

搜集汇总

数据集介绍

构建方式

在伊斯兰经学音频数据研究领域，该数据集通过系统采集多位诵经师的古兰经朗诵录音构建而成。采用16kHz采样率的高质量音频录制，每个样本均标注了精确的时间戳、音节切分以及经文文本的多种书写变体。数据构建过程融合了语音信号处理技术与经文文本对齐算法，确保音频片段与对应的imlaey和uthmani文本版本实现精准匹配，并计算匹配度比率以保障数据一致性。

特点

该数据集的核心特征在于其多维度的语言学标注体系，不仅包含基础音频波形和转录文本，还深入标注了阿拉伯语特有的音韵属性。每个样本均附带详细的音位学信息（phonemes）和诵经规则属性（sifat），如ghonna（鼻音化）、qalqala（回声效应）等专业发音特征。数据集采用结构化存储方式，包含诵经师元数据、经文章节索引以及发音质量指标，为研究阿拉伯语语音学提供了丰富的标注维度。

使用方法

研究人员可通过加载指定配置（如moshaf_1.0或moshaf_2.0）访问不同版本的经文集数据。典型应用场景包括训练阿拉伯语语音识别模型，其中音频数据作为输入，多种文本版本作为监督信号。深度学习框架可基于timestamp_seconds实现强制对齐训练，利用phonemes和sifat特征进行细粒度发音分析。数据集的布尔型标注字段（如has_bismillah）支持特定经文片段的筛选，便于进行对比语言学研究和诵经风格分析。

背景与挑战

背景概述

伊斯兰语音学研究领域长期致力于《古兰经》诵读法的数字化保存与分析，muaalem-annotated-v3数据集应运而生。该数据集由Tarteel AI研究团队构建，专注于收录多版本《古兰经》诵读音频及其精细语言学标注，涵盖不同诵读家（reciter）的发音变体。其核心研究目标在于通过机器学习方法解析阿拉伯语诵读的语音学特征，包括音素分解、诵读规则（tajweed）标注及音频-文本对齐，为伊斯兰文化遗产的数字化传承与语音技术研究提供重要基础。

当前挑战

该数据集需解决阿拉伯语诵读音频的复杂语音学标注问题，包括音素级别的时序对齐、多种诵读规则的声学特征提取，以及不同诵读家发音风格的差异性建模。构建过程中面临多重挑战：需处理大量音频与多种文本版本（如uthmani与imlaey）的精确匹配；诵读规则（如ghonna、qalqla等）的声学标注需要专业语言学知识；同时需保证不同诵读家数据的一致性与标注质量，这对跨版本校验与专家验证提出了较高要求。

常用场景

经典使用场景

在阿拉伯语语音处理领域，该数据集通过提供标准化的古兰经诵读音频及其多层次标注，成为语音识别与合成研究的基准资源。其经典应用场景包括训练端到端的阿拉伯语自动语音识别系统，特别是针对宗教文本特有的发音规则和韵律特征进行建模。研究者利用其精确的时间戳标注和音素级转录，开发能够准确识别古典阿拉伯语发音的深度学习模型。

衍生相关工作

基于该数据集衍生的经典工作包括面向古兰经诵读的端到端语音识别系统QurANAS，该系统首次实现了对复杂诵读规则的自动检测。另有研究利用其音韵学标注开发了多层次发音评估框架TajweedNet，能够精确分析诵读中的音韵特征。这些工作不仅推动了阿拉伯语语音技术的发展，还为跨语言宗教文本计算处理建立了新的技术范式。

数据集最近研究