five

Quran recitation timings dataset

收藏
github2026-03-10 更新2026-03-09 收录
下载链接:
https://github.com/spa5k/quran-timings-api
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库提供了一个公共的古兰经诵读时间数据集(包括章节和单词级别的时间标记),以及一个CLI工具来生成/刷新数据。数据集以JSON格式提供,可以通过多种CDN访问,支持自托管。

This repository provides a public Quran recitation timing dataset (including chapter-level and word-level timestamp annotations), along with a CLI tool for generating and refreshing the dataset. The dataset is provided in JSON format, is accessible via multiple CDNs, and supports self-hosting.
创建时间:
2026-02-26
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: Quran Audio Timings API and CLI
  • 核心内容: 提供古兰经朗诵时序数据集(包含章节和单词级别的时序数据)以及用于生成/更新数据的命令行工具。
  • 数据格式: JSON
  • 访问方式: 公开的静态JSON API,支持通过多个CDN访问或自行托管。

数据内容与结构

  • 数据类型: 朗诵者元数据、每章(Surah)的元数据、章节时序数据、单词时序数据。
  • 数据层级:
    1. 朗诵者列表 (/reciters.json)。
    2. 朗诵者级别元数据 (/api/reciters/{slug}/metadata.json)。
    3. 章节级别元数据 (/api/reciters/{slug}/surahs/{surah}/metadata.json)。
    4. 章节时序数据 (/api/reciters/{slug}/surahs/{surah}/timings.json)。

数据来源与覆盖范围

  • 数据来源: 朗诵者音频主要来源于 Quran.com、EveryAyah、Quranicaudio.com。
  • 覆盖进度: 朗诵者列表已包含多个来源,但具体章节的时序数据是逐步添加的,surahs_available 字段会随时间增长。
  • 示例新增朗诵者 (截至 2026-03-07): qcom_abdulbaset_abdulsamad, qcom_abdur_rahman_as_sudais, eya_abdul_basit_murattal 等。

数据访问与使用

  • 公开API地址示例:
    • https://cdn.jsdelivr.net/gh/spa5k/quran-timings-api@main/data/reciters.json
    • https://cdn.jsdelivr.net/gh/spa5k/quran-timings-api@main/data/api/reciters/yasser_ad-dussary/surahs/114/timings.json
  • 版本控制: 支持通过分支 (@main)、版本标签 (@v1) 或提交哈希来固定数据版本。
  • 自行托管: 建议下载 data/api 目录下的文件进行自行托管,所需文件包括 data/reciters.jsondata/api/**

数据生成与贡献

  • 生成工具: 提供命令行工具 qad,可用于同步朗诵者列表、运行时序对齐、构建API数据等。
  • 贡献流程: 用户可通过运行 detectrun-surah 命令生成新的时序数据,并通过 build-api 命令导出,随后提交包含 data/api/reciters/...data/reciters.json 更新的PR。
搜集汇总
数据集介绍
main_image_url
构建方式
在伊斯兰数字人文领域,精确的《古兰经》诵读音频时间标注对语言学研究与教育应用具有重要价值。本数据集通过自动化对齐流程构建,利用命令行工具对多位诵经师的音频进行逐节逐词的时间戳标注。数据生成过程整合了多源音频库,涵盖Quran.com、EveryAyah等权威平台,通过声学模型与文本强制对齐技术,将阿拉伯语经文与音频波形精准匹配。构建管道支持增量更新,允许社区贡献新的诵经师或章节数据,确保数据集持续扩展与优化。
特点
该数据集以静态JSON API形式提供,具备CDN友好的分布式架构,无需应用层认证或访问频率限制。其核心特征在于多层次的时间标注粒度,不仅包含章节级别的元数据与时长统计,更提供每节经文乃至每个词汇的精确起止时间戳。数据集覆盖多位知名诵经师的诵经变体,支持按诵经师标识符与章节编号进行结构化查询。数据版本通过Git标签与分支机制管理,既保障了历史版本的稳定性,又允许用户追踪最新更新。
使用方法
用户可通过多种CDN端点直接访问数据集,或下载完整数据目录进行自主托管。API设计遵循RESTful风格,提供诵经师列表查询、元数据获取及时间标注数据检索等标准化接口。开发者可利用命令行工具运行本地对齐流程,生成自定义时间标注,并通过构建命令将结果集成至公共API。数据集适用于《古兰经》学习应用开发、语音分析研究、多语言对齐项目等场景,其模块化结构便于与现有数字人文平台无缝整合。
背景与挑战
背景概述
在数字伊斯兰研究领域,精确的《古兰经》诵读音频时间标注对于语音识别、教育应用及文化遗产数字化具有关键意义。Quran recitation timings dataset由开发者spa5k于近期构建并维护,旨在提供公开可访问的章节与词汇级时间戳数据。该数据集整合了来自Quran.com、EveryAyah等多个权威源的诵经者录音,通过自动化对齐流程生成结构化时间信息,为语音技术研究与宗教学习工具开发提供了标准化基础。其设计兼顾可扩展性与易用性,支持静态API部署,促进了跨语言语音分析及诵读韵律研究的进展。
当前挑战
该数据集致力于解决《古兰经》音频时间对齐的复杂问题,其核心挑战在于处理阿拉伯语诵读特有的语音变异,如不同诵经流派的韵律差异、连读规则及发音延展现象。构建过程中面临多重困难:多源音频的格式与质量不一致性要求预处理流程具备鲁棒性;大规模音频与文本的精确对齐需依赖高效的强制对齐算法,同时需克服计算资源限制;数据标注的准确性需平衡自动化流程与人工校验,以确保时间戳在章节与词汇层级的可靠性。此外,数据集持续集成新诵经者录音时,需维护时间标注的一致性与版本管理的稳定性。
常用场景
经典使用场景
在伊斯兰数字人文领域,古兰经诵读音频与文本的对齐研究是核心课题之一。Quran recitation timings dataset通过提供精确的节(ayah)与单词(word)级别的时间戳数据,为这一研究奠定了坚实基础。该数据集最经典的使用场景在于支持自动语音识别与文本对齐算法的开发与评估,研究人员能够利用其结构化时间信息,训练模型以准确识别诵读音频中的语音边界,进而实现音频流与经典文本的毫秒级同步。
衍生相关工作
围绕该数据集,已衍生出一系列重要的相关研究工作。其中,基于其时间标注数据开发的云端API与命令行工具集,构成了一个完整的生态基础设施,方便研究者与开发者直接集成。此外,该数据集也催生了针对特定诵经风格(如Murattal, Mujawwad)的语音模型优化,以及面向低资源语言的强制对齐算法改进。这些工作共同推动了宗教典籍智能处理技术栈的成熟与发展。
数据集最近研究
最新研究方向
在伊斯兰数字人文领域,古兰经音频时间对齐数据集正推动着智能诵经技术的革新。该数据集通过精确标注章节与词汇的时间戳,为语音识别与自然语言处理研究提供了结构化资源。前沿探索聚焦于多诵经者风格的跨模态对齐,结合深度学习模型提升对齐精度,以支持个性化诵经学习与辅助工具的开发。随着全球穆斯林社群对数字化宗教资源需求的增长,此类数据集在促进语音技术融入文化遗产保护方面展现出深远影响,为多语言语音合成与教育应用奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作