bible

Hugging Face2025-04-26 更新2025-04-27 收录

下载链接：

https://huggingface.co/datasets/v-bible/bible

下载链接

链接失效反馈

官方服务：

资源简介：

由v-bible创建的圣经数据集，包含礼仪日历、专有名词翻译、礼仪数据和圣经markdown数据。

The Bible dataset, created by v-bible, includes liturgical calendars, proper noun translations, liturgical data, and Bible Markdown data.

创建时间：

2025-04-24

原始信息汇总

Bible Dataset by v-bible 数据集概述

基本信息

语言: 英语 (en), 越南语 (vi)
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
标签: bible, religion, scripture, translation, dataset
数据集名称: Bible Dataset by v-bible
规模分类: 100M < n < 1B

数据内容

数据文件:
- data/books/bible/*.jsonl (训练集)

数据结构

calendar: 使用 v-bible/js-sdk 生成的礼仪日历。
misc/proper-names.json: 从 ktcgkpv.org 获取的名称翻译，由 v-bible/bible-scraper 生成。
liturgical: 来自 The Lectionary for Mass (1998/2002 USA Edition) 的礼仪数据，由 Felix Just, S.J., Ph.D. 编译，并由 v-bible/bible-scraper 生成。
books/bible: 生成的圣经 Markdown 数据。

未来计划

添加 YOUCAT 数据。

贡献指南

欢迎贡献，请阅读贡献指南。
请遵守行为准则。

许可证

许可证类型: CC BY-NC-SA 4.0
详情: 参见 LICENSE.md。

联系方式

联系人: Duong Vinh
Twitter: @duckymomo20012
邮箱: tienvinh.duong4@gmail.com
项目链接: https://huggingface.co/datasets/v-bible/bible

致谢

bible.com
biblegateway.com
ktcgkpv.org
The Lectionary for Mass (1998/2002 USA Edition) by Felix Just, S.J., Ph.D.

搜集汇总

数据集介绍

构建方式

在宗教文本数字化领域，该数据集通过多源异构数据整合技术构建而成。其核心内容来源于v-bible/js-sdk生成的礼仪日历、ktcgkpv.org提供的专有名词翻译数据，以及基于《弥撒读经集》（1998/2002美国版）的礼仪文本。采用自动化爬取工具bible-scraper进行数据采集后，将原始文本转换为结构化Markdown格式，最终形成标准化的JSONL文件存储体系。

特点

作为跨语言宗教文本资源，该数据集兼具英语和越南语双语版本，涵盖圣经全文、礼仪日历和专有名词词典三大模块。其独特价值在于整合了天主教弥撒礼仪数据，并包含从bible.com、biblegateway.com等权威来源提取的经文内容。数据规模达数亿字符级别，采用CC BY-NC-SA 4.0协议开放，既保证学术研究自由度，又维护了宗教文本的版权完整性。

使用方法

该数据集主要服务于宗教文本分析与自然语言处理研究，研究者可通过HuggingFace平台直接加载预处理好的JSONL格式数据。对于礼仪学研究，数据集提供的结构化日历系统支持精确的日期索引；而圣经文本的Markdown格式则便于开发圣经学习应用。使用前需注意遵守非商业用途限制，并按照要求标注数据来源。

背景与挑战

背景概述

Bible数据集由v-bible团队构建，旨在为宗教研究和经文翻译领域提供结构化的数据支持。该数据集整合了多种来源的圣经文本，包括《弥撒读经》（1998/2002美国版）等权威资料，并采用多语言（英语和越南语）标注，以满足跨文化宗教研究的需要。其核心研究问题聚焦于如何高效地组织、标准化和共享宗教文本数据，从而促进宗教学、语言学以及数字人文领域的研究。该数据集通过提供丰富的结构化数据，为相关领域的学术研究和技术开发奠定了重要基础。

当前挑战

Bible数据集在构建过程中面临多重挑战。首先，宗教文本的多样性和复杂性要求数据整合过程中必须处理不同版本、语言和注释体系的兼容性问题。其次，数据来源的权威性和准确性至关重要，需确保文本内容与原始经文保持一致。此外，数据集的多语言特性增加了标注和标准化工作的难度，尤其是在处理专有名词和术语翻译时。最后，如何在遵循知识共享许可协议（CC BY-NC-SA 4.0）的前提下，平衡数据的开放共享与版权限制，也是该数据集持续维护和扩展中的关键问题。

常用场景

经典使用场景

在宗教文本分析与跨语言翻译研究中，Bible数据集因其多语言特性（如英语和越南语）和丰富的结构化数据（包括圣经文本、礼仪日历和专有名词翻译）而成为经典选择。研究者常利用该数据集进行经文对齐、语义分析以及跨文化宗教语言学研究，为宗教文本的数字化处理提供了标准化范例。

解决学术问题

该数据集有效解决了宗教文本机器翻译中的低资源语言对齐问题，尤其是越南语等非拉丁语系语言的语义保留难题。其包含的专有名词翻译对照表和礼仪数据，为跨宗教文化比较研究提供了可量化的语料基础，推动了计算宗教学领域的方法论创新。

衍生相关工作

基于该数据集衍生的经典工作包括跨宗教文本嵌入模型（如Bible2Vec）和礼仪计算系统。v-bible团队开发的js-sdk工具链已成为宗教文本处理的基础设施，相关研究论文在ACL宗教NLP研讨会和数字人文会议（DH）中多次被引用。

以上内容由遇见数据集搜集并总结生成