bible
收藏Hugging Face2025-04-26 更新2025-04-27 收录
下载链接:
https://huggingface.co/datasets/v-bible/bible
下载链接
链接失效反馈官方服务:
资源简介:
由v-bible创建的圣经数据集,包含礼仪日历、专有名词翻译、礼仪数据和圣经markdown数据。
创建时间:
2025-04-24
原始信息汇总
Bible Dataset by v-bible 数据集概述
基本信息
- 语言: 英语 (en), 越南语 (vi)
- 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- 标签: bible, religion, scripture, translation, dataset
- 数据集名称: Bible Dataset by v-bible
- 规模分类: 100M < n < 1B
数据内容
- 数据文件:
data/books/bible/*.jsonl(训练集)
数据结构
- calendar: 使用 v-bible/js-sdk 生成的礼仪日历。
- misc/proper-names.json: 从 ktcgkpv.org 获取的名称翻译,由 v-bible/bible-scraper 生成。
- liturgical: 来自 The Lectionary for Mass (1998/2002 USA Edition) 的礼仪数据,由 Felix Just, S.J., Ph.D. 编译,并由 v-bible/bible-scraper 生成。
- books/bible: 生成的圣经 Markdown 数据。
未来计划
- 添加 YOUCAT 数据。
贡献指南
许可证
- 许可证类型: CC BY-NC-SA 4.0
- 详情: 参见 LICENSE.md。
联系方式
- 联系人: Duong Vinh
- Twitter: @duckymomo20012
- 邮箱: tienvinh.duong4@gmail.com
- 项目链接: https://huggingface.co/datasets/v-bible/bible
致谢
- bible.com
- biblegateway.com
- ktcgkpv.org
- The Lectionary for Mass (1998/2002 USA Edition) by Felix Just, S.J., Ph.D.
搜集汇总
数据集介绍

构建方式
在宗教文本数字化领域,该数据集通过多源异构数据整合技术构建而成。其核心内容来源于v-bible/js-sdk生成的礼仪日历、ktcgkpv.org提供的专有名词翻译数据,以及基于《弥撒读经集》(1998/2002美国版)的礼仪文本。采用自动化爬取工具bible-scraper进行数据采集后,将原始文本转换为结构化Markdown格式,最终形成标准化的JSONL文件存储体系。
特点
作为跨语言宗教文本资源,该数据集兼具英语和越南语双语版本,涵盖圣经全文、礼仪日历和专有名词词典三大模块。其独特价值在于整合了天主教弥撒礼仪数据,并包含从bible.com、biblegateway.com等权威来源提取的经文内容。数据规模达数亿字符级别,采用CC BY-NC-SA 4.0协议开放,既保证学术研究自由度,又维护了宗教文本的版权完整性。
使用方法
该数据集主要服务于宗教文本分析与自然语言处理研究,研究者可通过HuggingFace平台直接加载预处理好的JSONL格式数据。对于礼仪学研究,数据集提供的结构化日历系统支持精确的日期索引;而圣经文本的Markdown格式则便于开发圣经学习应用。使用前需注意遵守非商业用途限制,并按照要求标注数据来源。
背景与挑战
背景概述
Bible数据集由v-bible团队构建,旨在为宗教研究和经文翻译领域提供结构化的数据支持。该数据集整合了多种来源的圣经文本,包括《弥撒读经》(1998/2002美国版)等权威资料,并采用多语言(英语和越南语)标注,以满足跨文化宗教研究的需要。其核心研究问题聚焦于如何高效地组织、标准化和共享宗教文本数据,从而促进宗教学、语言学以及数字人文领域的研究。该数据集通过提供丰富的结构化数据,为相关领域的学术研究和技术开发奠定了重要基础。
当前挑战
Bible数据集在构建过程中面临多重挑战。首先,宗教文本的多样性和复杂性要求数据整合过程中必须处理不同版本、语言和注释体系的兼容性问题。其次,数据来源的权威性和准确性至关重要,需确保文本内容与原始经文保持一致。此外,数据集的多语言特性增加了标注和标准化工作的难度,尤其是在处理专有名词和术语翻译时。最后,如何在遵循知识共享许可协议(CC BY-NC-SA 4.0)的前提下,平衡数据的开放共享与版权限制,也是该数据集持续维护和扩展中的关键问题。
常用场景
经典使用场景
在宗教文本分析与跨语言翻译研究中,Bible数据集因其多语言特性(如英语和越南语)和丰富的结构化数据(包括圣经文本、礼仪日历和专有名词翻译)而成为经典选择。研究者常利用该数据集进行经文对齐、语义分析以及跨文化宗教语言学研究,为宗教文本的数字化处理提供了标准化范例。
解决学术问题
该数据集有效解决了宗教文本机器翻译中的低资源语言对齐问题,尤其是越南语等非拉丁语系语言的语义保留难题。其包含的专有名词翻译对照表和礼仪数据,为跨宗教文化比较研究提供了可量化的语料基础,推动了计算宗教学领域的方法论创新。
衍生相关工作
基于该数据集衍生的经典工作包括跨宗教文本嵌入模型(如Bible2Vec)和礼仪计算系统。v-bible团队开发的js-sdk工具链已成为宗教文本处理的基础设施,相关研究论文在ACL宗教NLP研讨会和数字人文会议(DH)中多次被引用。
以上内容由遇见数据集搜集并总结生成



