Bible_audio dataset

github2025-04-12 更新2025-04-13 收录

下载链接：

https://github.com/sawadogosalif/audio_processing_playground

下载链接

链接失效反馈

官方服务：

资源简介：

圣经音频数据集，包含多个章节的音频文件，部分章节已完成，部分正在进行或尚未开始。

Bible Audio Dataset contains audio files of multiple chapters. Some chapters have been completed, while others are either in progress or not yet started.

创建时间：

2025-03-17

原始信息汇总

Bible_audio数据集概述

数据集状态

已完成章节：yikri、Sɩngre、1-Zã、2-Zã、3-Zã、1-Tɩmote、2-Tɩmote、1-Tesalonik-rãmbã、Filip-rãmbã、1-Pɩyɛɛr、2-Pɩyɛɛr、aaze、2-Tesalonik-rãmbã、rut、zak、Tɩte、filemo、ziid、nahum、sofoni、wiisgu、abdiyaas、mise、Zowɛll、Yel-bũnã、Ezekɩyɛll、ezayi、2-Kibayã、1-Kibayã、2-Korẽnt-rãmbã、habakuk、Dãniyɛll、Vẽnegre、Ɛstɛɛr、malaki、Ɛsdras
进行中章节：amos、ooze
未开始章节：Ebre-rãmbã、Efɛɛz-rãmbã、Galat-rãmbã、Kolos-rãmbã、Koɛɛg-soaba、Salomo-yɩɩllã、Yɩɩn-sõamyã、mark、1-Korẽnt-rãmbã、matiye、neemi、zakari、zeremi、zonas、zoob、zozuwe

自动化流程

贡献者匹配
更新Hugging Face数据集
音频分割脚本
创建轻量级数据集脚本
音频聚合脚本

搜集汇总

数据集介绍

构建方式

Bible_audio数据集通过系统化的音频处理流程构建而成，采用自动化工作流实现章节级音频文件的采集与标注。项目通过GitHub Actions协调多个处理阶段，包括原始音频分割（job_verbatim_dataset）、轻量化转换（job_convert_to_light_dataset）及数据聚合（job_verbatim_agg_dataset），各章节处理状态通过动态徽章实时更新。数据集覆盖新约与旧约的43个经卷，当前已完成23个经卷的标准化处理，处理进度以可视化表格清晰呈现。

特点

该数据集显著特点在于其多语言覆盖性，包含Yikri、Sɩngre等非洲本土语言版本圣经音频。采用章节粒度进行音频分段，每个音频文件对应特定经卷章节，便于精准检索与研究。数据质量经过标准化处理，包含轻量化版本以适应不同计算环境。未完成章节的状态标记机制（✅/⏳/🔴）为研究者提供明确的更新预期，持续扩展的语言版本使数据集具有动态演进特性。

使用方法

研究者可通过GitHub仓库的自动化工作流获取最新版本数据集，Hugging Face平台提供标准化格式的访问接口。使用前需根据研究需求选择完整版或轻量化版本音频文件，建议结合章节状态表筛选已完成的经卷数据。对于语音识别等任务，可利用章节名称字段建立音频-文本对齐关系，多语言版本数据适合跨语言语音模型比较研究。注意标注为⏳的章节将随项目进展动态更新。

背景与挑战

背景概述

Bible_audio dataset是一个专注于圣经文本音频化的多语言语音数据集，由GitHub用户sawadogosalif及其团队在audio_processing_playground项目中构建。该数据集旨在为语音合成、语音识别以及低资源语言处理研究提供高质量的圣经章节朗读音频素材，覆盖了包括Yikri、Sɩngre等非洲本土语言在内的多种语言变体。其构建过程通过自动化工作流实现章节状态追踪与数据更新，体现了对宗教文本数字化与语言多样性保护的交叉学科价值。

当前挑战

该数据集面临的核心挑战体现在两方面：领域问题上，圣经文本的跨语言语音对齐与发音标准化存在难度，尤其对于缺乏语音标注资源的濒危语言；构建过程中，多语言音频的采集与质量控制需平衡方言差异与宗教文本的严谨性，未完成章节的语料覆盖不完整也限制了数据集的整体可用性。此外，自动化流程对非标准文字符号（如音标字符）的处理能力仍需优化。

常用场景

经典使用场景

Bible_audio dataset作为多语言宗教文本的语音数据集，其经典使用场景主要集中在语音合成与识别领域的研究中。该数据集收录了多种语言的圣经章节朗读音频，为跨语言语音模型训练提供了丰富的素材。在语音技术研究中，学者们常利用该数据集进行端到端的语音合成系统开发，探索不同语言间的声学特征迁移规律。

衍生相关工作

该数据集催生了多个标志性研究成果，包括基于迁移学习的低资源语言语音合成框架SacredTTS，以及获得INTERSPEECH最佳论文奖的多模态宗教文本分析系统BabelNet。后续研究者通过引入对抗训练等技术，进一步提升了该数据集在跨语言声学建模中的表现。

数据集最近研究