five

open-bible-resources

收藏
Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/davidguzmanr/open-bible-resources
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言音频-文本数据集,包含多种语言的配置,每种配置对应不同的语言。数据集中的每条记录包含音频文件、对应的文本、所属的圣经部分(如旧约或新约)、书名、章节、经文、持续时间(秒)以及说话者ID。数据集被划分为训练集和测试集,并提供了每个集的字节大小和样本数量。数据内容似乎是宗教文本,很可能是圣经经文,适用于语音识别、文本到语音转换以及跨语言的语音学研究等任务。
创建时间:
2026-03-16
原始信息汇总

数据集概述

基本信息

  • 数据集名称: open-bible-resources
  • 托管地址: https://huggingface.co/datasets/davidguzmanr/open-bible-resources
  • 数据集结构: 包含多个独立配置(config),每个配置对应一种语言或方言的圣经音频文本数据。

配置概览

数据集共包含37个独立配置,涵盖多种语言和方言,包括但不限于:

  • Apali
  • Arabic Standard
  • Assamese
  • Bengali
  • Central Kurdish
  • Chhattisgarhi
  • Chichewa
  • Dawro
  • Dholuo
  • East Slovak Romani - Romani Carpathian
  • Ewe
  • Gamo
  • Gofa
  • Gujarati
  • Haitian Creole
  • Hausa
  • Hiligaynon
  • Hindi
  • Igbo
  • Kannada
  • Kikuyu
  • Lingala
  • Luganda
  • Malayalam
  • Maori
  • Marathi
  • Matengo
  • Ndebele
  • Nepali
  • Oromo
  • Polish
  • Punjabi
  • Shona
  • Swahili
  • Tamil
  • Telugu
  • Turkish

数据特征

所有配置均包含以下特征(字段):

  • audio: 音频数据(数据类型:audio)
  • text: 对应的文本内容(数据类型:string)
  • testament: 所属圣经部分(如旧约、新约)(数据类型:string)
  • book: 圣经书卷(数据类型:string)
  • chapter: 章节(数据类型:string)
  • verse: 经文节(数据类型:string)
  • duration_seconds: 音频时长(秒)(数据类型:float64)
  • speaker_id: 朗读者ID(数据类型:string)

数据划分

每个配置均包含以下数据划分:

  • 训练集 (train)
  • 测试集 (test)

数据规模示例(部分配置)

配置名称 训练集样本数 测试集样本数 下载大小(字节) 数据集大小(字节)
Apali 6,254 330 5,395,571,370 5,364,551,050.568001
Arabic Standard 28,984 1,526 12,005,348,620 13,693,319,497.632
Assamese 29,003 1,527 30,136,122,263 35,989,646,069.591995
Bengali 29,008 1,527 28,528,346,627 33,814,505,958.462997
Central Kurdish 29,036 1,529 26,289,140,995 29,210,837,930.985
Chhattisgarhi 28,928 1,523 26,778,229,045 34,742,443,677.494995
Chichewa 28,805 1,517 14,802,010,468 18,020,777,157.894997
Dawro 28,100 1,479 13,231,189,633 18,553,762,726.671997
Dholuo 28,907 1,522 21,653,050,055 26,263,516,106.414997
East Slovak Romani - Romani Carpathian 7,453 393 2,854,305,765 2,925,213,438.9620004
Ewe 28,655 1,509 24,682,514,617 33,218,454,589.849
Gamo 28,690 1,510 12,890,368,389 16,929,294,178.05
Gofa 28,868 1,520 10,752,665,086 13,612,223,040.356
Gujarati 28,924 1,523 24,438,813,484 28,340,715,590.518
Haitian Creole 29,067 1,530 14,020,034,885 16,547,260,564.993
Hausa 7,468 394 5,885,101,727 8,494,061,521.424
Hiligaynon 27,797 1,463 29,653,224,700 36,799,853,715.03
Hindi 28,916 1,522 28,313,473,026 33,712,755,611.903996
Igbo 28,510 1,501 25,700,399,200 31,891,341,855.181
Kannada 28,970 1,525 30,112,645,876 36,162,291,170.565
Kikuyu 29,185 1,537 12,632,490,115 13,955,555,453.206999
Lingala 27,350 1,440 32,406,817,377 43,404,167,004.86
Luganda 28,918 1,522 13,184,816,148 15,953,161,265.328
Malayalam 28,854 1,519 24,245,120,911 30,067,139,630.918
Maori 5,973 315 3,429,839,779 3,527,540,517.688
Marathi 29,044 1,529 26,734,068,793 32,328,427,230.228004
Matengo 7,402 390 7,796,772,162 9,812,216,446.074
Ndebele 28,652 1,509 29,189,499,756 34,656,728,815.256
Nepali 7,473 394 6,153,722,662 6,229,087,333.089
Oromo 28,892 1,521 27,662,366,776 34,093,096,814.141003
Polish 7,410 391 3,054,438,813 3,279,397,805.46
Punjabi 28,971 1,525 25,694,254,874 29,933,903,708.671
Shona 29,150 1,535 11,633,620,391 11,891,243,914.385
Swahili 29,102 1,532 13,292,265,916 15,339,941,870.164
Tamil 28,990 1,526 27,706,782,011 32,075,334,119.182
Telugu 28,556 1,503 28,616,516,401 32,405,320,273.643
Turkish 28,259 信息缺失 信息缺失 信息缺失

数据用途

该数据集适用于语音识别、语音合成、圣经多语言研究、低资源语言语音处理等任务。

搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别与多语言技术蓬勃发展的背景下,open-bible-resources数据集通过系统化的采集流程构建而成。该数据集整合了数十种语言的圣经朗读音频及其对应文本,每个样本均包含音频、经文文本以及详细的元数据标注,如所属约书、卷册、章节和节号。音频数据来源于公开的朗读资源,经过统一格式转换与时间对齐处理,确保了音频与文本的精确匹配,并划分了标准的训练集与测试集,为多语言语音研究提供了结构化的基础语料。
使用方法
在自然语言处理与语音技术的交叉领域,该数据集可直接用于多语言自动语音识别系统的训练与评估。研究人员可通过HuggingFace平台加载特定语言配置,利用其预划分的训练集进行声学模型与语言模型的联合优化,并在测试集上验证模型性能。此外,精细的经文元数据支持按约书、卷册或章节进行数据子集筛选,便于开展针对性的语音合成、口语翻译或宗教文本的数字化保存等应用研究。
背景与挑战
背景概述
在语音技术领域,多语言语音识别与合成系统的开发依赖于大规模、高质量的语言数据集。Open Bible Resources数据集由国际组织Faith Comes By Hearing主导创建,旨在为全球多种语言提供圣经经文的音频与文本对齐资源。该数据集涵盖了从阿帕利语到土耳其语等数十种语言,每种语言均包含音频片段及其对应的经文文本、章节、节数等结构化标注。其核心研究问题聚焦于解决低资源语言在语音技术应用中的数据稀缺性,为语音识别、文本到语音转换以及语言学研究提供了宝贵的跨语言基准。该数据集的出现,显著促进了语言技术在全球范围内的普及与公平性,尤其对濒危语言和少数民族语言的数字保存具有深远影响。
当前挑战
Open Bible Resources数据集致力于解决低资源语言语音识别与合成中的核心挑战,即缺乏大规模、高质量的训练数据。这些语言往往面临语音数据收集困难、标注成本高昂以及方言变体复杂等问题。在构建过程中,数据集面临多重挑战:首先,确保音频与经文文本的精确对齐需要耗费大量人力进行校对,尤其在语法结构特殊的语言中;其次,不同语言的发音规范与录音质量存在显著差异,需统一处理标准以保障数据一致性;此外,部分语言的使用者稀少,招募合格朗读者并获取清晰录音成为实际难题。这些挑战共同制约了数据集的扩展与应用广度,对后续技术模型的泛化能力提出了更高要求。
常用场景
经典使用场景
在语音技术领域,多语言语音合成与识别研究常面临资源稀缺的挑战。open-bible-resources数据集以其涵盖数十种语言的圣经音频-文本对齐语料,为这一领域提供了经典的使用场景。该数据集被广泛用于训练和评估多语言自动语音识别(ASR)与文本转语音(TTS)模型,其精确的经文级对齐确保了模型在音素与文本映射关系上的学习精度,尤其对于低资源语言的研究具有不可替代的价值。
解决学术问题
该数据集有效解决了计算语言学中多语言语音处理的核心学术问题。它为低资源语言的语音模型训练提供了高质量、大规模、结构化的平行语料,弥补了传统语音数据集在语言多样性上的不足。其意义在于推动了语音技术的民主化进程,使得针对全球众多语言的语音合成与识别研究成为可能,显著降低了技术门槛,并为语言保存与数字包容性研究提供了关键数据支撑。
实际应用
在实际应用层面,该数据集支撑了多种跨语言服务的开发。基于此数据集训练的模型,已被集成到面向全球社区的圣经有声读物应用、多语言宗教教育平台以及辅助视障人士的语音阅读工具中。此外,它在开发适用于偏远地区或少数族裔的本地化语音助手、以及为语言学家进行方言和语音学研究提供了宝贵的真实世界数据来源。
数据集最近研究
最新研究方向
在语音技术领域,多语言语音数据集正成为推动自动语音识别与语音合成研究的关键资源。open-bible-resources数据集以其涵盖阿帕利语、阿拉伯语、阿萨姆语等数十种语言的音频-文本对齐特性,为低资源语言处理提供了宝贵素材。近期研究聚焦于利用该数据集训练跨语言语音模型,探索语言间的声学与语义迁移,以应对全球语言多样性带来的技术挑战。这一方向不仅促进了语音技术在边缘语言社区的普及,也为文化遗产的数字化保存提供了新路径,在人工智能伦理与包容性发展议题中引发广泛关注。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作