quranic-universal-ayahs

Hugging Face2026-04-02 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/hetchyy/quranic-universal-ayahs

下载链接

链接失效反馈

官方服务：

资源简介：

Qur'anic Universal Ayahs 数据集是一个包含古兰经经文（ayah）的音频数据集，具有从音素级强制对齐中提取的精确时间戳。数据集包含300多位诵经者的录音，涵盖14种不同的诵读方式（riwayat）。每个数据行代表一节经文，包含以下内容：修剪至语音边界的音频片段、以毫秒为单位的单词级时间戳（相对于音频片段）、基于停顿的分段（显示诵经时自然停顿的分割）、以及对齐匹配的阿拉伯文本（反映实际诵经内容，包括任何重复）。数据集还提供了诵经者目录，包括诵经者的英文和阿拉伯文名称、诵读方式、风格、国家来源等信息。该数据集适用于自动语音识别（ASR）、语音活动检测（VAD）和音素级对齐等任务。

创建时间：

2026-03-26

原始信息汇总

数据集概述：Quranic Universal Ayahs

基本信息

数据集名称：Quranic Universal Ayahs
托管地址：https://huggingface.co/datasets/hetchyy/quranic-universal-ayahs
许可证：Apache 2.0
版本：v0.1.3
数据规模：1K<n<10K
主要任务类别：自动语音识别
主要语言：阿拉伯语

数据集描述

本数据集包含词级别对齐的古兰经诵读音频，具有从音素级强制对齐中获得的精确时间戳。这是一个包含14种诵读方式、超过300位诵经者的社区验证数据集。

每条数据对应古兰经的一节经文，包含：

经文的音频片段，已修剪至语音边界。
以毫秒为单位的词级时间戳，相对于音频片段。
基于停顿的片段，显示诵读如何被自然的静默分割。
对齐匹配的阿拉伯语文本（反映实际诵读内容，包括任何重复）。

配置与结构

数据集包含两个配置。

配置一：`hafs_an_asim`

特征：

audio：音频
surah：章编号 (1-114)
ayah：节编号
text：阿拉伯语文本
segments：基于停顿的片段
word_timestamps：词级时间戳
source_url：原始音频文件URL
source_offset_ms：在原始音频中此节开始的偏移量（毫秒）

数据分割：

ali_jaber：6,236 个样本
minshawy_murattal：6,236 个样本，数据大小约1.57 GB

配置二：`reciters`

特征：

reciter：诵经者标识
name_en：英文显示名
name_ar：阿拉伯语名
riwayah：诵读方式标识
style：诵读风格
country：来源国家
source：音频来源
audio_category：音频类别
url_template：URL模板
coverage_surahs：包含音频的章数
coverage_ayahs：包含音频的节数
is_timestamped：数据集中是否有词级时间戳

数据分割：

all：338 个样本

关键字段说明

segments：每个片段格式为 [word_from, word_to, start_ms, end_ms]，代表停顿之间的连续语音区域。词索引从1开始。
word_timestamps：每个词格式为 [word_index, start_ms, end_ms]，来自音素级强制对齐。词索引从1开始。
source_url：提取此节经文的原始音频文件URL。
source_offset_ms：从source_url起始处到此节开始的毫秒偏移量。

数据处理流程

VAD分割：使用针对诵读的VAD模型检测语音区域。
音素级ASR：使用基于wav2vec2的CTC识别。
动态规划对齐：将识别出的音素与已知的古兰经参考文本进行匹配。
MFA强制对齐：使用Montreal Forced Aligner生成音素级时间戳，并由此推导出词边界。

注意事项

所有时间戳单位均为毫秒，相对于音频片段的起始点。
词索引从1开始。
词时间戳在每个片段内向前填充，因此连续词之间没有间隙。间隙仅出现在片段边界之间。
文本来源于片段对齐，并保留了诵读中的任何重复。
音频片段被修剪至第一个和最后一个词的边界。

搜集汇总

数据集介绍

构建方式

在伊斯兰教经典语音研究领域，Qur'anic Universal Ayahs数据集通过系统化的多阶段流程构建而成。初始阶段采用针对古兰经吟诵优化的语音活动检测模型，精准识别音频中的语音区域。随后，基于wav2vec2架构的CTC音素级自动语音识别系统对音频内容进行转写，再通过动态规划算法将识别出的音素序列与标准古兰经文本进行对齐。最终，利用蒙特利尔强制对齐器生成精确到音素级别的时间戳，并由此推导出每个单词的起止边界，从而形成具有严格时间标注的音频-文本对齐数据。

特点

该数据集的核心特征体现在其精细的时间标注体系与广泛的声音样本覆盖。数据集提供了毫秒精度的单词级时间戳，这些时间戳源自音素级的强制对齐结果，确保了语音单元与文本单元映射的准确性。同时，数据集依据吟诵中的自然停顿划分了语音段落，完整保留了吟诵的韵律结构。数据涵盖超过300位吟诵者的录音，覆盖14种不同的诵读传承方式，并包含完整的章节音频源偏移信息，支持从章节到经文的无缝检索与播放，为语音学研究提供了多维度、高精度的分析基础。

使用方法

在语音计算研究中，该数据集支持通过标准数据加载接口进行高效访问。研究者可指定特定的诵读传承方式与吟诵者来加载对应子集，从而获取包含音频片段、经文编号、阿拉伯语文本及多层次时间戳的结构化数据。单词时间戳与段落信息使得对吟诵节奏、停顿模式进行量化分析成为可能。通过结合原始音频源URL与偏移时间，可以实现对完整章节录音的精准定位与无缝播放。此外，独立的吟诵者目录配置便于用户根据传承方式、风格或覆盖范围筛选样本，并可通过URL模板直接构建原始音频访问链接。

背景与挑战

背景概述

在伊斯兰数字人文与计算语言学领域，对《古兰经》诵读音频进行精细化标注的需求日益增长。Qur'anic Universal Ayahs数据集由Wider-Community团队构建，旨在为超过300位诵经者跨越14种诵读传述（Riwayat）的音频提供词语级时间戳对齐。该数据集的核心研究问题在于解决《古兰经》诵读音频的自动语音识别与强制对齐难题，通过音素级对齐技术，精确标注每个词语的起止时间，从而支持语音分析、教育工具开发及数字经文研究等应用，显著提升了相关领域的数据可用性与研究深度。

当前挑战

该数据集致力于解决《古兰经》诵读音频的自动语音识别与词语级时间戳对齐这一复杂领域问题，其挑战在于处理阿拉伯语特有的语音变体、不同诵读传述的发音差异以及诵读中的韵律停顿。在构建过程中，团队面临音频来源多样性与质量不均、大规模音频的语音活动检测与精确对齐、以及跨多种诵读风格与传述的标注一致性等具体挑战，这些因素共同增加了数据清洗、对齐算法设计与社区验证的复杂度。

常用场景

经典使用场景

在伊斯兰经典语音计算领域，quranic-universal-ayahs数据集为《古兰经》诵读音频的细粒度分析提供了核心资源。其最经典的使用场景在于支持基于强制对齐技术的语音学研究，通过精确到单词和音素级别的时间戳，研究者能够深入剖析不同诵读传统（如哈夫斯传述）中韵律节奏、停顿模式以及发音变体的声学特征。该数据集使得大规模量化分析多位诵读者的语音表现成为可能，为构建自动化的诵读评估与教学系统奠定了数据基础。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作。最直接的应用是开发了‘Qur'anic Universal Aligner’等在线演示工具，展示了强制对齐技术的实际效果。在算法层面，其处理流程（结合VAD、CTC-ASR和MFA对齐）本身已成为处理宗教诵读音频的参考范式。进一步的研究利用其多诵读者数据，探索了说话人自适应、韵律建模以及跨传述方式的语音合成等任务，推动了领域自适应语音技术在文化遗产领域的深入应用。

数据集最近研究