quran_recitations_phonemes

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/hetchyy/quran_recitations_phonemes

下载链接

链接失效反馈

官方服务：

资源简介：

Phoneme-labelled Quran Datatset是一个包含44位专业朗诵者朗诵古兰经的音频数据集，音频经过自动音素标注，包含了音素、文本、朗诵者信息等。数据集分为训练集、开发集和全部数据集，分别包含不同的朗诵者和朗诵时长。

创建时间：

2025-09-03

原始信息汇总

数据集概述

基本信息

任务类别：自动语音识别、文本转语音
语言：阿拉伯语
许可证：其他

数据来源

音频来自 EveryAyah 和 QUL 平台，包含 44 位专业《古兰经》诵经者的朗诵录音。

数据处理

使用定制音素标注器自动标注音素，编码了 Tajweed 规则。
音频为 16 kHz 重采样的单声道音频。

数据集结构

audio：音频数据
duration：音频时长（秒）
verse：经文引用（格式为“章节编号_经文编号”）
reciter：诵经者姓名
text：乌斯曼脚本的带变音符号文本
phonemes：Tajweed 感知音素序列

数据划分

划分	诵经者数量	经文数量	时长	话语数量	片段长度
train	36	5208	~773 小时	183,842	1–50 秒
dev	8	1000	~13 小时	5,425	1–15 秒
all	44	6236	~1224 小时	274,358	无限制

开发集诵经者

Ahmed-AlNufais、Ayman-Sowaid、Fares-Abbad、Ibrahim-Akhdar、Karim-Mansoori-Mujawwad、Khalifa-AlTunaji、Sahl-Yasin、Saood-Shuraim

训练集诵经者

AbdulBasit-Murattal、AbdulMuhsin-AlQasim、Abdullah-AlJuhayny、Abdullah-Basfar、Abdullah-Matroud、AbdurRahman-AsSudais、AbuBakr-AshShatri、Ahmed-Ajmy、Ahmed-Neana、Akram-AlAqimy、Ali-AlSuesy、Ali-Jaber、Aziz-Alili、Bandar-Baleela、Hady-Toure、Hani-Rifai、Hudhaify、Husary-Murattal、Khalid-AlJalil、Khalid-AlQahtani、Maher-AlMuaiqly、Mahmoud-AlBanna、Minshawi-Murattal、Mishari-AlAfasy、Mohammad-Ayyoub、Mohammad-Jibreel、Mohammad-Tablawi、Mostafa-Ismail、Muhammad-AbdulKareem、Nasser-AlQatami、Saad-AlGhamdi、Salah-AlBudair、Salah-Bukhatir、Shahriar-Parhizkar、Yasser-AdDussary、Yasser-Salamah

注意事项

训练集和开发集在诵经者和经文上互斥，防止数据泄露。
完整划分包含所有数据，无丢弃或过滤。
建议过滤长片段以提高模型训练效率。

未来工作

发布按停顿分段的数据集版本。
提供与分段对齐的音素标签。
增加更多不同水平的诵经者。

引用与致谢

音频录音来自 EveryAyah 和 QUL，版权归原始平台所有。
自动音素转录使用 Quranic Phonemizer 工具。

搜集汇总

数据集介绍

构建方式

在伊斯兰宗教语音研究领域，quran_recitations_phonemes数据集系统整合了来自EveryAyah和QUL平台的44位专业古兰经诵经家的朗诵录音。通过定制化的音素化工具，该数据集采用塔吉维德规则对音频进行自动音素标注，确保语音与文本的精确对齐。数据处理过程中，原始音频被统一重采样为16kHz单声道格式，并依据诵经家和经文节段进行严格划分，有效避免了训练与验证集之间的信息泄露。

特点

该数据集的核心特征体现在其塔吉维德音系标注体系，能够精准捕捉阿拉伯语古兰经朗诵的发音规则与韵律特征。数据集涵盖超过1200小时的语音资源，包含27万余条发音单元，每条音频均配备乌斯曼脚本的带符号文本及对应的音素序列。值得注意的是，数据划分采用诵经家与经文节段双重隔离策略，训练集与开发集完全独立，而完整版本则保留所有原始数据以供灵活研究。

使用方法

研究者可依据具体任务需求选择适当的数据划分方式：训练集包含36位诵经家的5208节经文，适用于语音识别或文本转语音模型的训练；开发集则提供8位诵经家的1000节经文用于模型验证。对于长音频处理，建议通过时长过滤机制优化训练效率。该数据集支持自定义音素符号与停顿处理，用户可通过关联的GitHub仓库调整标注规则，以适应不同的古兰经语音学研究场景。

背景与挑战

背景概述

《古兰经》诵读音素数据集诞生于伊斯兰数字人文研究蓬勃发展的时代，由Tarteel.ai等机构联合创建，旨在推动阿拉伯语语音技术的精准化发展。该数据集收录了44位专业诵经师的音频材料，采用符合塔吉维德规则的音素标注体系，为伊斯兰经典诵读的自动语音识别与文本转语音系统提供了核心训练资源。其创新性地将传统诵读规则与现代计算语言学相结合，对保护非物质文化遗产和促进跨语言语音技术研究具有显著意义。

当前挑战

该数据集主要应对阿拉伯语宗教典籍语音处理的特殊挑战，包括复杂音变规则的 computational modeling、方言诵经风格的音系学编码，以及连续诵读中的韵律边界检测。在构建过程中，面临诵经师个体差异导致的音素标注一致性难题，长音频分段带来的标签噪声问题，以及为保持数据纯净度而不得不舍弃部分交叉样本的技术取舍。此外，如何平衡传统诵读规则与现代语音识别框架的适配性，仍是当前需要深入探索的方向。

常用场景

经典使用场景

在阿拉伯语语音技术研究中，该数据集为古兰经朗诵的自动语音识别与文本转语音系统提供了关键训练资源。研究者利用其精确的音素标注和泰吉威德规则编码，构建端到端的朗诵韵律分析模型，显著提升了宗教文本朗诵的自动化处理水平。

衍生相关工作

基于该数据集衍生的经典工作包括TajweedNet韵律分析模型和QuranTTS神经网络合成系统。这些成果进一步拓展出跨方言朗诵比对、自动发音错误检测等研究方向，形成了完整的古兰经计算语音学研究体系。

数据集最近研究