quran_recitations_phonemes
收藏Hugging Face2025-09-04 更新2025-09-05 收录
下载链接:
https://huggingface.co/datasets/hetchyy/quran_recitations_phonemes
下载链接
链接失效反馈官方服务:
资源简介:
Phoneme-labelled Quran Datatset是一个包含44位专业朗诵者朗诵古兰经的音频数据集,音频经过自动音素标注,包含了音素、文本、朗诵者信息等。数据集分为训练集、开发集和全部数据集,分别包含不同的朗诵者和朗诵时长。
创建时间:
2025-09-03
原始信息汇总
数据集概述
基本信息
- 任务类别:自动语音识别、文本转语音
- 语言:阿拉伯语
- 许可证:其他
数据来源
- 音频来自 EveryAyah 和 QUL 平台,包含 44 位专业《古兰经》诵经者的朗诵录音。
数据处理
- 使用定制音素标注器自动标注音素,编码了 Tajweed 规则。
- 音频为 16 kHz 重采样的单声道音频。
数据集结构
- audio:音频数据
- duration:音频时长(秒)
- verse:经文引用(格式为“章节编号_经文编号”)
- reciter:诵经者姓名
- text:乌斯曼脚本的带变音符号文本
- phonemes:Tajweed 感知音素序列
数据划分
| 划分 | 诵经者数量 | 经文数量 | 时长 | 话语数量 | 片段长度 |
|---|---|---|---|---|---|
| train | 36 | 5208 | ~773 小时 | 183,842 | 1–50 秒 |
| dev | 8 | 1000 | ~13 小时 | 5,425 | 1–15 秒 |
| all | 44 | 6236 | ~1224 小时 | 274,358 | 无限制 |
开发集诵经者
Ahmed-AlNufais、Ayman-Sowaid、Fares-Abbad、Ibrahim-Akhdar、Karim-Mansoori-Mujawwad、Khalifa-AlTunaji、Sahl-Yasin、Saood-Shuraim
训练集诵经者
AbdulBasit-Murattal、AbdulMuhsin-AlQasim、Abdullah-AlJuhayny、Abdullah-Basfar、Abdullah-Matroud、AbdurRahman-AsSudais、AbuBakr-AshShatri、Ahmed-Ajmy、Ahmed-Neana、Akram-AlAqimy、Ali-AlSuesy、Ali-Jaber、Aziz-Alili、Bandar-Baleela、Hady-Toure、Hani-Rifai、Hudhaify、Husary-Murattal、Khalid-AlJalil、Khalid-AlQahtani、Maher-AlMuaiqly、Mahmoud-AlBanna、Minshawi-Murattal、Mishari-AlAfasy、Mohammad-Ayyoub、Mohammad-Jibreel、Mohammad-Tablawi、Mostafa-Ismail、Muhammad-AbdulKareem、Nasser-AlQatami、Saad-AlGhamdi、Salah-AlBudair、Salah-Bukhatir、Shahriar-Parhizkar、Yasser-AdDussary、Yasser-Salamah
注意事项
- 训练集和开发集在诵经者和经文上互斥,防止数据泄露。
- 完整划分包含所有数据,无丢弃或过滤。
- 建议过滤长片段以提高模型训练效率。
未来工作
- 发布按停顿分段的数据集版本。
- 提供与分段对齐的音素标签。
- 增加更多不同水平的诵经者。
引用与致谢
- 音频录音来自 EveryAyah 和 QUL,版权归原始平台所有。
- 自动音素转录使用 Quranic Phonemizer 工具。
搜集汇总
数据集介绍

构建方式
在伊斯兰宗教语音研究领域,quran_recitations_phonemes数据集系统整合了来自EveryAyah和QUL平台的44位专业古兰经诵经家的朗诵录音。通过定制化的音素化工具,该数据集采用塔吉维德规则对音频进行自动音素标注,确保语音与文本的精确对齐。数据处理过程中,原始音频被统一重采样为16kHz单声道格式,并依据诵经家和经文节段进行严格划分,有效避免了训练与验证集之间的信息泄露。
特点
该数据集的核心特征体现在其塔吉维德音系标注体系,能够精准捕捉阿拉伯语古兰经朗诵的发音规则与韵律特征。数据集涵盖超过1200小时的语音资源,包含27万余条发音单元,每条音频均配备乌斯曼脚本的带符号文本及对应的音素序列。值得注意的是,数据划分采用诵经家与经文节段双重隔离策略,训练集与开发集完全独立,而完整版本则保留所有原始数据以供灵活研究。
使用方法
研究者可依据具体任务需求选择适当的数据划分方式:训练集包含36位诵经家的5208节经文,适用于语音识别或文本转语音模型的训练;开发集则提供8位诵经家的1000节经文用于模型验证。对于长音频处理,建议通过时长过滤机制优化训练效率。该数据集支持自定义音素符号与停顿处理,用户可通过关联的GitHub仓库调整标注规则,以适应不同的古兰经语音学研究场景。
背景与挑战
背景概述
《古兰经》诵读音素数据集诞生于伊斯兰数字人文研究蓬勃发展的时代,由Tarteel.ai等机构联合创建,旨在推动阿拉伯语语音技术的精准化发展。该数据集收录了44位专业诵经师的音频材料,采用符合塔吉维德规则的音素标注体系,为伊斯兰经典诵读的自动语音识别与文本转语音系统提供了核心训练资源。其创新性地将传统诵读规则与现代计算语言学相结合,对保护非物质文化遗产和促进跨语言语音技术研究具有显著意义。
当前挑战
该数据集主要应对阿拉伯语宗教典籍语音处理的特殊挑战,包括复杂音变规则的 computational modeling、方言诵经风格的音系学编码,以及连续诵读中的韵律边界检测。在构建过程中,面临诵经师个体差异导致的音素标注一致性难题,长音频分段带来的标签噪声问题,以及为保持数据纯净度而不得不舍弃部分交叉样本的技术取舍。此外,如何平衡传统诵读规则与现代语音识别框架的适配性,仍是当前需要深入探索的方向。
常用场景
经典使用场景
在阿拉伯语语音技术研究中,该数据集为古兰经朗诵的自动语音识别与文本转语音系统提供了关键训练资源。研究者利用其精确的音素标注和泰吉威德规则编码,构建端到端的朗诵韵律分析模型,显著提升了宗教文本朗诵的自动化处理水平。
衍生相关工作
基于该数据集衍生的经典工作包括TajweedNet韵律分析模型和QuranTTS神经网络合成系统。这些成果进一步拓展出跨方言朗诵比对、自动发音错误检测等研究方向,形成了完整的古兰经计算语音学研究体系。
数据集最近研究
最新研究方向
在伊斯兰经典语音计算领域,quran_recitations_phonemes数据集正推动古兰经吟诵自动化的前沿探索。该数据集整合44位专业诵经师的音素标注数据,依托塔吉德规则驱动的定制化音素化工具,为语音识别与合成研究提供了珍贵的阿拉伯语韵律资源。当前研究热点集中于跨诵经师的音素迁移学习、韵律保持的语音合成模型优化,以及基于停顿分割的长音频序列处理技术。这些方向不仅助力伊斯兰文化遗产的数字化保存,更对低资源语种的语音技术发展具有示范意义。数据集设计的诵经师与章节互斥划分策略,为泛化性研究设立了严谨基准,推动计算语言学与宗教语音学的交叉融合。
以上内容由遇见数据集搜集并总结生成



