Quranic Universal Audio
收藏github2026-04-06 更新2026-03-29 收录
下载链接:
https://github.com/Wider-Community/quranic-universal-audio
下载链接
链接失效反馈官方服务:
资源简介:
一个社区验证的古兰经音频和计时数据集,包含350多名诵经者的词和字母级别的时间戳,覆盖14种诵读方式。该数据集为古兰经应用、开发者和研究人员提供了一站式的音频和计时中心,具有统一的模式和全面的元数据。
A community-validated Quranic audio and timestamping dataset containing word- and letter-level timestamps from over 350 reciters, covering 14 recitation styles. This dataset provides a one-stop audio and timing hub for Quranic applications, developers and researchers, with unified schemas and comprehensive metadata.
创建时间:
2026-03-09
原始信息汇总
数据集概述
基本信息
- 数据集名称: Quranic Universal Audio
- 核心定位: 面向古兰经应用、开发者和研究人员的综合性音频与时间戳中心。
- 数据内容: 一个包含350多名诵经者的社区验证数据集,涵盖14种诵读方式(Riwayat),提供单词级和字母级时间戳。
数据规模与覆盖
- 音频规模: 总计7,853小时。其中,完整古兰经诵读295份,部分章节诵读86份。
- 时间戳数据: 总计25小时。其中,完整古兰经时间戳2份,部分章节时间戳1份。
- 诵读方式覆盖: 覆盖14种(共20种)诵读方式(Riwayat)。
- 诵读风格: 涵盖mujawwad、murattal、muallim、taraweeh和儿童跟读风格。
关键特性
- 统一模式: 为所有诵经录音提供具有全面元数据的统一、一致的数据模式。
- 音素级对齐: 采用20毫秒精度的音素级对齐,消除单词边界的歧义,并解决如Idgham(合并)等泰姬威德规则导致的跨单词声音合并问题。
- 鲁棒的时间戳: 支持重复单词/经文的正确检测与时间戳标注,时间戳经过填充以消除对齐伪影,确保高亮显示无视觉间隙。
- 社区驱动验证: 每个处理阶段均通过专用验证器自动检查,并可通过检查器UI进行人工校正。
- 自动化流程: 提供从提交请求到验证发布的自动化处理流程。
- 完全可复现: 每个JSON文件均包含创建时间戳、模型、参数和配置信息,并依托Git版本管理和GitHub Releases实现完整追溯。
数据访问方式
- 直接下载: 从
https://github.com/Wider-Community/quranic-universal-audio仓库的data/目录获取JSON文件,或从GitHub Releases下载打包数据。 - Hugging Face数据集: 访问
https://huggingface.co/datasets/hetchyy/quranic-universal-ayahs。 - QUD API: (即将推出)
技术组件
data/: 存放参考数据、音频清单、对齐输出、时间戳,以及数据模式和文档。quranic_universal_aligner/: 展示完整处理流程的Hugging Face空间,提供免费GPU处理,也可作为API使用。mfa_aligner/: 用于计算时间戳的MFA强制对齐服务。inspector/: 用于浏览、验证和编辑对齐结果的Flask网络应用。validators/: 用于验证音频输入、片段和时间戳的CLI脚本。reciter_requests: 社区请求表单与新诵经者处理系统。quranic-phonemizer: 外部包,提供古兰经专用的字素到音素转换功能,是实现音素级对齐的基础。
许可协议
- 许可证: Apache 2.0
搜集汇总
数据集介绍

构建方式
在伊斯兰经典数字化研究领域,Quranic Universal Audio数据集采用系统化流程构建而成。其核心方法基于社区驱动的自动化处理管道,首先通过标准化的音频收集与元数据整理,将来自不同来源的诵经录音统一至规范架构。随后运用专门针对古兰经语音特征训练的先进自动语音识别模型,实现音素级别的强制对齐处理,精确度达到20毫秒。该流程特别设计了独立处理静默片段的机制,确保重复词句的时间戳标注准确无误。整个构建过程强调可追溯性,每个输出文件均包含完整的生成参数与版本信息。
特点
该数据集展现出多维度学术价值特征,其核心在于实现了跨诵读传统的统一标准化表征。数据集涵盖超过350位诵经者的完整录音,覆盖14种诵读传承方式,并包含教学式、泰拉威赫拜等多种诵读风格。音素级时间戳标注技术有效解决了传统单词边界标注在塔吉威德规则下的模糊性问题,特别是在连读等语音融合现象中保持精确性。时间戳数据采用无间隙填充处理,确保音频与文本高亮显示的视觉同步性。数据集架构设计充分考虑了不同诵读传统在措辞与章节编号上的差异,为比较研究提供了结构化基础。
使用方法
研究者和开发者可通过多种途径获取并应用这一数据集资源。最直接的方式是从项目GitHub发布页面下载打包的JSON文件,其中包含完整的音频元数据与时间戳信息。数据集同时托管于Hugging Face平台,提供标准化的数据加载接口。对于应用程序开发,即将推出的QUD API将提供程序化访问能力。实际使用中,用户可基于音素级时间戳实现精确的音频文本同步,支持交互式学习工具的开发。数据集的结构化设计便于进行跨诵读传统的对比分析,其社区验证机制确保数据质量满足学术研究标准。
背景与挑战
背景概述
在数字伊斯兰研究领域,古兰经音频资源的标准化与对齐一直是一项基础且关键的任务。Quranic Universal Audio数据集由Wider-Community团队主导构建,旨在为古兰经应用程序开发者和研究人员提供一个统一、高质量的音频与时间戳中心。该数据集整合了超过350位诵经者的录音,涵盖14种诵读传统(Riwayat)及多种诵读风格,如Mujawwad、Murattal等,并提供了音素级别的精确时间戳。其核心研究问题在于解决古兰经音频资源分散、格式不一、元数据缺失的现状,通过社区驱动的验证机制和自动化流程,为语音识别、教育技术及数字人文研究提供了可靠的数据基础,显著提升了相关领域的研究效率与可重复性。
当前挑战
该数据集致力于解决古兰经音频自动对齐与时间标注的复杂挑战,其中首要难题在于处理多种诵读传统间的文本差异与音韵变化,例如不同Riwayat在词语和节文编号上的不一致性。构建过程中,团队需克服音频来源的异构性,包括从网站、API、原始文件等多种渠道收集的录音,其格式、分割方式和元数据均不统一。此外,实现高精度的音素级对齐需应对塔吉威德(Tajweed)规则带来的语音现象,如Idgham(合并音),这要求开发专用的古兰经语音识别模型。尽管自动化流程已高度完善,但为确保数据质量,仍需依赖社区人工验证来校正对齐错误,如缺失词语或边界偏差,这构成了持续维护中的核心挑战。
常用场景
经典使用场景
在伊斯兰数字人文领域,Quranic Universal Audio数据集为古兰经音频研究提供了标准化资源。其最经典的使用场景在于支持古兰经朗诵的自动语音识别与对齐分析,研究者利用该数据集高精度的音素级时间戳,能够深入探索不同朗诵风格(如mujawwad、murattal)下的韵律特征与发音变体,为语音技术模型在宗教文本处理中的性能评估奠定基础。
解决学术问题
该数据集有效解决了古兰经音频研究中长期存在的资源分散与标注不一致问题。通过整合超过350位朗诵者的音频及其跨14种诵读传统的对齐数据,它为比较语言学、计算语音学等领域提供了统一基准,使得学者能够系统分析不同诵读传统(riwayat)间的音韵差异,并推动针对阿拉伯语宗教文本的专用自动语音识别模型的开发与验证。
衍生相关工作
围绕该数据集衍生的经典工作主要包括古兰经专用语音技术工具的创建。例如,基于其对齐数据训练的Quranic-Phonemizer模型实现了古兰经文本到音素的精确转换,为后续对齐流程提供核心支持。此外,社区利用该数据集开发了自动化对齐请求管道与可视化检测界面,这些工具进一步降低了古兰经音频标注的技术门槛,促进了相关开源生态的发展。
以上内容由遇见数据集搜集并总结生成



