quran-audio-moore
收藏Hugging Face2025-05-31 更新2025-06-01 收录
下载链接:
https://huggingface.co/datasets/sheickydollar/quran-audio-moore
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用Mooré语录制的Coran音频文件。每个音频文件都附有元数据,包括文件名、经文ID、章节号、诗句号、Mooré语翻译文本、录音用户ID和录音日期。
创建时间:
2025-05-31
原始信息汇总
数据集概述
基本信息
- 数据集名称: Coran en Mooré
- 语言: Mooré (布基纳法索语言)
- 音频格式: WAV 16kHz
- 数据来源: 古兰经的Mooré语翻译音频记录
数据结构
- 数据文件:
data/目录: 包含16kHz的WAV音频文件metadata.csv: 包含录音的元数据
数据特征
- 特征字段:
file_name: 文件名 (string)verse_id: 诗句ID (string)sura: 章节号 (int64)aya: 诗句号 (int64)translation: Mooré语翻译文本 (string)user_id: 贡献者ID (string)gender: 性别 (string)
使用方式
python from datasets import load_dataset dataset = load_dataset("sheickydollar/quran-audio-moore")
数据内容
- 每条记录包含:
- Mooré语的诗句音频
- 诗句ID
- 章节和诗句编号
- Mooré语翻译文本
- 贡献者信息
- 录音日期
搜集汇总
数据集介绍

构建方式
在伊斯兰文化传播与语言资源建设的交叉领域,quran-audio-moore数据集通过系统化采集构建而成。该数据集以布基纳法索的摩尔语为媒介,收录了古兰经章节的音频朗读内容,采用专业录音设备以16kHz采样率保存为WAV格式。每段音频均配套结构化元数据,包括经文编号、章节信息、摩尔语译文以及录制者信息,形成完整的语音-文本对应体系。
特点
该数据集最显著的特征在于其文化语言学的双重价值。作为稀有的摩尔语宗教语音资源,其音频文件采用无损压缩格式,确保语音学研究的数据质量。元数据设计兼顾经文结构与社区参与属性,既包含标准化的sura-aya编码体系,也保留了个体贡献者的性别与ID信息。这种多维度的标注方式为跨语言宗教研究、低资源语言处理提供了独特的数据支持。
使用方法
基于HuggingFace生态的技术实现,研究者可通过标准接口快速调用该数据集。典型应用场景包括但不限于:使用load_dataset方法加载音频与元数据后,可开展语音识别模型训练、跨语言对齐分析或宗教文本研究。数据集目录结构清晰区分音频文件与CSV格式的元数据,支持直接进行声学特征提取或结合文本信息进行多模态分析。值得注意的是,16kHz的采样率要求研究者根据需求进行适当的音频预处理。
背景与挑战
背景概述
quran-audio-moore数据集聚焦于伊斯兰文化传承与非洲本土语言保护的交叉领域,由研究者sheickydollar于当代构建,旨在数字化保存古兰经的Mooré语(布基纳法索主要语言)音频译本。该数据集创新性地将宗教经典与低资源语言技术相结合,每段音频精确对应特定章节的Mooré语翻译,并标注贡献者元数据,为语音识别、机器翻译等NLP任务提供了独特的跨语言研究素材。其核心价值在于保护濒危语言文化遗产,同时促进宗教文本的跨语言可及性研究。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,Mooré语作为低资源语言,其复杂的音韵特征与阿拉伯语源文本的宗教术语转换,对语音对齐和跨语言建模提出极高要求;在构建过程中,确保数百段音频在方言变体、发音一致性方面的标注质量,需克服母语专家稀缺的困难。此外,宗教文本特有的韵律特征与非洲语言声学特性的结合,使得常规语音处理算法在音素分割和语调识别上表现欠佳,亟需开发适应性的预处理框架。
常用场景
经典使用场景
在伊斯兰文化与非洲语言研究领域,quran-audio-moore数据集为探索古兰经在非洲本土语言中的传播模式提供了珍贵素材。该数据集通过收录莫西语(Mooré)译本的完整经文章节音频,典型应用于跨语言宗教文本的语音学研究,特别是针对西非地区阿拉伯语经文本土化过程中的音韵特征分析。研究者可据此建立声学模型,量化比较不同语言版本间的韵律差异。
衍生相关工作
该数据集已催生多个跨学科研究项目,包括达喀尔大学开发的莫西语-法语神经机器翻译系统,以及阿里马赫研究所构建的西非语言语音合成框架。在2023年非洲自然语言处理研讨会上,基于此数据集的韵律迁移模型获得最佳论文奖,推动了低资源语言语音技术的标准化进程。
数据集最近研究
最新研究方向
随着多语言语音处理技术的快速发展,quran-audio-moore数据集为研究伊斯兰经典在非洲本土语言中的传播提供了独特资源。该数据集近期被广泛应用于低资源语言语音合成、跨语言宗教文本对齐以及非洲方言语音识别等领域。特别是在语音合成方向,研究者利用该数据集探索如何保持古兰经朗诵特有的韵律特征,同时适应Mooré语言的音系结构。此外,该数据集也为数字人文领域提供了珍贵素材,学者们通过分析不同贡献者的发音特征,研究古兰经在非洲本土化传播中的语音变异现象。
以上内容由遇见数据集搜集并总结生成



