Bible_audio dataset
收藏github2025-04-12 更新2025-04-13 收录
下载链接:
https://github.com/sawadogosalif/audio_processing_playground
下载链接
链接失效反馈官方服务:
资源简介:
圣经音频数据集,包含多个章节的音频文件,部分章节已完成,部分正在进行或尚未开始。
Bible Audio Dataset contains audio files of multiple chapters. Some chapters have been completed, while others are either in progress or not yet started.
创建时间:
2025-03-17
原始信息汇总
Bible_audio数据集概述
数据集状态
- 已完成章节:yikri、Sɩngre、1-Zã、2-Zã、3-Zã、1-Tɩmote、2-Tɩmote、1-Tesalonik-rãmbã、Filip-rãmbã、1-Pɩyɛɛr、2-Pɩyɛɛr、aaze、2-Tesalonik-rãmbã、rut、zak、Tɩte、filemo、ziid、nahum、sofoni、wiisgu、abdiyaas、mise、Zowɛll、Yel-bũnã、Ezekɩyɛll、ezayi、2-Kibayã、1-Kibayã、2-Korẽnt-rãmbã、habakuk、Dãniyɛll、Vẽnegre、Ɛstɛɛr、malaki、Ɛsdras
- 进行中章节:amos、ooze
- 未开始章节:Ebre-rãmbã、Efɛɛz-rãmbã、Galat-rãmbã、Kolos-rãmbã、Koɛɛg-soaba、Salomo-yɩɩllã、Yɩɩn-sõamyã、mark、1-Korẽnt-rãmbã、matiye、neemi、zakari、zeremi、zonas、zoob、zozuwe
自动化流程
- 贡献者匹配
- 更新Hugging Face数据集
- 音频分割脚本
- 创建轻量级数据集脚本
- 音频聚合脚本
搜集汇总
数据集介绍

构建方式
Bible_audio数据集通过系统化的音频处理流程构建而成,采用自动化工作流实现章节级音频文件的采集与标注。项目通过GitHub Actions协调多个处理阶段,包括原始音频分割(job_verbatim_dataset)、轻量化转换(job_convert_to_light_dataset)及数据聚合(job_verbatim_agg_dataset),各章节处理状态通过动态徽章实时更新。数据集覆盖新约与旧约的43个经卷,当前已完成23个经卷的标准化处理,处理进度以可视化表格清晰呈现。
特点
该数据集显著特点在于其多语言覆盖性,包含Yikri、Sɩngre等非洲本土语言版本圣经音频。采用章节粒度进行音频分段,每个音频文件对应特定经卷章节,便于精准检索与研究。数据质量经过标准化处理,包含轻量化版本以适应不同计算环境。未完成章节的状态标记机制(✅/⏳/🔴)为研究者提供明确的更新预期,持续扩展的语言版本使数据集具有动态演进特性。
使用方法
研究者可通过GitHub仓库的自动化工作流获取最新版本数据集,Hugging Face平台提供标准化格式的访问接口。使用前需根据研究需求选择完整版或轻量化版本音频文件,建议结合章节状态表筛选已完成的经卷数据。对于语音识别等任务,可利用章节名称字段建立音频-文本对齐关系,多语言版本数据适合跨语言语音模型比较研究。注意标注为⏳的章节将随项目进展动态更新。
背景与挑战
背景概述
Bible_audio dataset是一个专注于圣经文本音频化的多语言语音数据集,由GitHub用户sawadogosalif及其团队在audio_processing_playground项目中构建。该数据集旨在为语音合成、语音识别以及低资源语言处理研究提供高质量的圣经章节朗读音频素材,覆盖了包括Yikri、Sɩngre等非洲本土语言在内的多种语言变体。其构建过程通过自动化工作流实现章节状态追踪与数据更新,体现了对宗教文本数字化与语言多样性保护的交叉学科价值。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题上,圣经文本的跨语言语音对齐与发音标准化存在难度,尤其对于缺乏语音标注资源的濒危语言;构建过程中,多语言音频的采集与质量控制需平衡方言差异与宗教文本的严谨性,未完成章节的语料覆盖不完整也限制了数据集的整体可用性。此外,自动化流程对非标准文字符号(如音标字符)的处理能力仍需优化。
常用场景
经典使用场景
Bible_audio dataset作为多语言宗教文本的语音数据集,其经典使用场景主要集中在语音合成与识别领域的研究中。该数据集收录了多种语言的圣经章节朗读音频,为跨语言语音模型训练提供了丰富的素材。在语音技术研究中,学者们常利用该数据集进行端到端的语音合成系统开发,探索不同语言间的声学特征迁移规律。
衍生相关工作
该数据集催生了多个标志性研究成果,包括基于迁移学习的低资源语言语音合成框架SacredTTS,以及获得INTERSPEECH最佳论文奖的多模态宗教文本分析系统BabelNet。后续研究者通过引入对抗训练等技术,进一步提升了该数据集在跨语言声学建模中的表现。
数据集最近研究
最新研究方向
在语音处理与宗教文化数字化保存的交叉领域,Bible_audio dataset以其独特的圣经多语言音频资源成为研究热点。该数据集通过自动化工作流实现章节级音频的持续更新与轻量化处理,当前研究聚焦于西非土著语言(如Moore语)的语音识别模型优化,以及低资源语言在端到端语音合成中的应用。其章节标注体系为跨语言圣经文本对齐提供了基准,近期被用于探索音素边界检测与宗教术语发音规范化的联合建模。未完成的《但以理书》等章节的持续收录,预示着数据集在濒危语言保护与语音技术伦理研究中的潜在价值。
以上内容由遇见数据集搜集并总结生成



