open-bible-resources

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/davidguzmanr/open-bible-resources

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言音频-文本数据集，包含多种语言的配置，每种配置对应不同的语言。数据集中的每条记录包含音频文件、对应的文本、所属的圣经部分（如旧约或新约）、书名、章节、经文、持续时间（秒）以及说话者ID。数据集被划分为训练集和测试集，并提供了每个集的字节大小和样本数量。数据内容似乎是宗教文本，很可能是圣经经文，适用于语音识别、文本到语音转换以及跨语言的语音学研究等任务。

创建时间：

2026-03-16

原始信息汇总

数据集概述

基本信息

数据集名称: open-bible-resources
托管地址: https://huggingface.co/datasets/davidguzmanr/open-bible-resources
数据集结构: 包含多个独立配置（config），每个配置对应一种语言或方言的圣经音频文本数据。

配置概览

数据集共包含37个独立配置，涵盖多种语言和方言，包括但不限于：

Apali
Arabic Standard
Assamese
Bengali
Central Kurdish
Chhattisgarhi
Chichewa
Dawro
Dholuo
East Slovak Romani - Romani Carpathian
Ewe
Gamo
Gofa
Gujarati
Haitian Creole
Hausa
Hiligaynon
Hindi
Igbo
Kannada
Kikuyu
Lingala
Luganda
Malayalam
Maori
Marathi
Matengo
Ndebele
Nepali
Oromo
Polish
Punjabi
Shona
Swahili
Tamil
Telugu
Turkish

数据特征

所有配置均包含以下特征（字段）：

audio: 音频数据（数据类型：audio）
text: 对应的文本内容（数据类型：string）
testament: 所属圣经部分（如旧约、新约）（数据类型：string）
book: 圣经书卷（数据类型：string）
chapter: 章节（数据类型：string）
verse: 经文节（数据类型：string）
duration_seconds: 音频时长（秒）（数据类型：float64）
speaker_id: 朗读者ID（数据类型：string）

数据划分

每个配置均包含以下数据划分：

训练集 (train)
测试集 (test)

数据规模示例（部分配置）

配置名称	训练集样本数	测试集样本数	下载大小（字节）	数据集大小（字节）
Apali	6,254	330	5,395,571,370	5,364,551,050.568001
Arabic Standard	28,984	1,526	12,005,348,620	13,693,319,497.632
Assamese	29,003	1,527	30,136,122,263	35,989,646,069.591995
Bengali	29,008	1,527	28,528,346,627	33,814,505,958.462997
Central Kurdish	29,036	1,529	26,289,140,995	29,210,837,930.985
Chhattisgarhi	28,928	1,523	26,778,229,045	34,742,443,677.494995
Chichewa	28,805	1,517	14,802,010,468	18,020,777,157.894997
Dawro	28,100	1,479	13,231,189,633	18,553,762,726.671997
Dholuo	28,907	1,522	21,653,050,055	26,263,516,106.414997
East Slovak Romani - Romani Carpathian	7,453	393	2,854,305,765	2,925,213,438.9620004
Ewe	28,655	1,509	24,682,514,617	33,218,454,589.849
Gamo	28,690	1,510	12,890,368,389	16,929,294,178.05
Gofa	28,868	1,520	10,752,665,086	13,612,223,040.356
Gujarati	28,924	1,523	24,438,813,484	28,340,715,590.518
Haitian Creole	29,067	1,530	14,020,034,885	16,547,260,564.993
Hausa	7,468	394	5,885,101,727	8,494,061,521.424
Hiligaynon	27,797	1,463	29,653,224,700	36,799,853,715.03
Hindi	28,916	1,522	28,313,473,026	33,712,755,611.903996
Igbo	28,510	1,501	25,700,399,200	31,891,341,855.181
Kannada	28,970	1,525	30,112,645,876	36,162,291,170.565
Kikuyu	29,185	1,537	12,632,490,115	13,955,555,453.206999
Lingala	27,350	1,440	32,406,817,377	43,404,167,004.86
Luganda	28,918	1,522	13,184,816,148	15,953,161,265.328
Malayalam	28,854	1,519	24,245,120,911	30,067,139,630.918
Maori	5,973	315	3,429,839,779	3,527,540,517.688
Marathi	29,044	1,529	26,734,068,793	32,328,427,230.228004
Matengo	7,402	390	7,796,772,162	9,812,216,446.074
Ndebele	28,652	1,509	29,189,499,756	34,656,728,815.256
Nepali	7,473	394	6,153,722,662	6,229,087,333.089
Oromo	28,892	1,521	27,662,366,776	34,093,096,814.141003
Polish	7,410	391	3,054,438,813	3,279,397,805.46
Punjabi	28,971	1,525	25,694,254,874	29,933,903,708.671
Shona	29,150	1,535	11,633,620,391	11,891,243,914.385
Swahili	29,102	1,532	13,292,265,916	15,339,941,870.164
Tamil	28,990	1,526	27,706,782,011	32,075,334,119.182
Telugu	28,556	1,503	28,616,516,401	32,405,320,273.643
Turkish	28,259	信息缺失	信息缺失	信息缺失

数据用途

该数据集适用于语音识别、语音合成、圣经多语言研究、低资源语言语音处理等任务。

搜集汇总

数据集介绍

构建方式

在语音识别与多语言技术蓬勃发展的背景下，open-bible-resources数据集通过系统化的采集流程构建而成。该数据集整合了数十种语言的圣经朗读音频及其对应文本，每个样本均包含音频、经文文本以及详细的元数据标注，如所属约书、卷册、章节和节号。音频数据来源于公开的朗读资源，经过统一格式转换与时间对齐处理，确保了音频与文本的精确匹配，并划分了标准的训练集与测试集，为多语言语音研究提供了结构化的基础语料。

使用方法

在自然语言处理与语音技术的交叉领域，该数据集可直接用于多语言自动语音识别系统的训练与评估。研究人员可通过HuggingFace平台加载特定语言配置，利用其预划分的训练集进行声学模型与语言模型的联合优化，并在测试集上验证模型性能。此外，精细的经文元数据支持按约书、卷册或章节进行数据子集筛选，便于开展针对性的语音合成、口语翻译或宗教文本的数字化保存等应用研究。

背景与挑战

背景概述

在语音技术领域，多语言语音识别与合成系统的开发依赖于大规模、高质量的语言数据集。Open Bible Resources数据集由国际组织Faith Comes By Hearing主导创建，旨在为全球多种语言提供圣经经文的音频与文本对齐资源。该数据集涵盖了从阿帕利语到土耳其语等数十种语言，每种语言均包含音频片段及其对应的经文文本、章节、节数等结构化标注。其核心研究问题聚焦于解决低资源语言在语音技术应用中的数据稀缺性，为语音识别、文本到语音转换以及语言学研究提供了宝贵的跨语言基准。该数据集的出现，显著促进了语言技术在全球范围内的普及与公平性，尤其对濒危语言和少数民族语言的数字保存具有深远影响。

当前挑战

Open Bible Resources数据集致力于解决低资源语言语音识别与合成中的核心挑战，即缺乏大规模、高质量的训练数据。这些语言往往面临语音数据收集困难、标注成本高昂以及方言变体复杂等问题。在构建过程中，数据集面临多重挑战：首先，确保音频与经文文本的精确对齐需要耗费大量人力进行校对，尤其在语法结构特殊的语言中；其次，不同语言的发音规范与录音质量存在显著差异，需统一处理标准以保障数据一致性；此外，部分语言的使用者稀少，招募合格朗读者并获取清晰录音成为实际难题。这些挑战共同制约了数据集的扩展与应用广度，对后续技术模型的泛化能力提出了更高要求。

常用场景

经典使用场景

在语音技术领域，多语言语音合成与识别研究常面临资源稀缺的挑战。open-bible-resources数据集以其涵盖数十种语言的圣经音频-文本对齐语料，为这一领域提供了经典的使用场景。该数据集被广泛用于训练和评估多语言自动语音识别（ASR）与文本转语音（TTS）模型，其精确的经文级对齐确保了模型在音素与文本映射关系上的学习精度，尤其对于低资源语言的研究具有不可替代的价值。

解决学术问题

该数据集有效解决了计算语言学中多语言语音处理的核心学术问题。它为低资源语言的语音模型训练提供了高质量、大规模、结构化的平行语料，弥补了传统语音数据集在语言多样性上的不足。其意义在于推动了语音技术的民主化进程，使得针对全球众多语言的语音合成与识别研究成为可能，显著降低了技术门槛，并为语言保存与数字包容性研究提供了关键数据支撑。

实际应用

在实际应用层面，该数据集支撑了多种跨语言服务的开发。基于此数据集训练的模型，已被集成到面向全球社区的圣经有声读物应用、多语言宗教教育平台以及辅助视障人士的语音阅读工具中。此外，它在开发适用于偏远地区或少数族裔的本地化语音助手、以及为语言学家进行方言和语音学研究提供了宝贵的真实世界数据来源。

数据集最近研究