five

eBible

收藏
github2023-09-16 更新2024-05-31 收录
下载链接:
https://github.com/BibleNLP/ebible
下载链接
链接失效反馈
官方服务:
资源简介:
精选自eBible.org的圣经版本并行数据语料库,包含仅圣经经文,去除所有其他文本如介绍段落、评论、脚注等。数据以每节经文一行格式呈现,遵循圣经书籍、章节和经文的规范列表。

This parallel corpus of Bible versions, curated from eBible.org, exclusively contains scriptural texts, with all extraneous materials such as introductory passages, commentaries, and footnotes removed. The data is formatted with each verse on a separate line, adhering to the canonical listing of Bible books, chapters, and verses.
创建时间:
2021-08-22
原始信息汇总

数据集概述

名称: eBible

来源: 由eBible.org提供的圣经版本衍生出的平行数据集。

版权与许可

  • 数据集中的圣经文本来自eBible.org。
  • 确保资源可在此形式下发布,可能属于公共领域、具有创意共享许可或获得权利持有者的许可。
  • 使用受原始来源的许可条款约束,详情见版权和许可文件夹

数据格式

  • 仅包含经文文本,其他如介绍段落、评论、脚注等已被移除。
  • 采用每节经文一行格式。
  • 经文顺序与基于原始分章的圣经书卷、章节和经文列表对齐。
  • 经文引用列表可在_vref.txt_文件中找到。

文件命名规则

  • 文件名格式:<languageCode>-<ParatextProject>.txt(例如:en-KJV.txt
    • <languageCode>: 语言代码,2或3个字符的ISO-639代码。
    • <ParatextProject>: 从Paratext项目中提取经文文本的项目名称。

经文引用格式

  • 格式:<book> <chapter>:<verse>(例如:GEN 1:1
    • <book>: 书卷的3字母缩写。
    • <chapter>: 章节号。
    • <verse>: 经文号。

缺失经文

  • 空白行表示源圣经中不包含该经文。

经文范围

  • 若源圣经包含经文范围,则该范围的所有经文文本将出现在经文范围首行的经文文本文件中。
  • 对于范围中的每条额外经文,对应行将包含标记<range>
搜集汇总
数据集介绍
main_image_url
构建方式
eBible数据集的构建基于eBible.org提供的多种圣经版本,通过SIL的自然语言处理工具bulk_extract_corpora.py从USFM文件中提取经文文本。每个圣经版本被处理为每行一节的格式,确保与标准圣经书籍、章节和节数的对齐。数据集中的每个文件都遵循特定的命名规则,包含语言代码和Paratext项目名称,以便于识别和分类。
特点
eBible数据集的特点在于其高度结构化的经文文本格式,每节经文独立成行,便于文本分析和处理。数据集涵盖了多种语言的圣经版本,每种版本都经过精心校对,确保文本的准确性和一致性。此外,数据集还提供了详细的版权信息,确保用户在使用时遵守相关法律法规。
使用方法
使用eBible数据集时,用户可以通过_vref.txt文件中的节数引用与具体圣经文本文件中的行进行对应,实现精确的文本定位。数据集支持多种语言和版本的圣经文本,适用于跨语言文本分析、机器翻译和宗教文本研究等领域。用户需注意遵守原始资源的版权许可,确保合法使用。
背景与挑战
背景概述
eBible数据集是一个精心策划的平行语料库,源自eBible.org提供的多种圣经版本。该数据集由BibleNLP团队创建,旨在为自然语言处理领域的研究人员提供一个标准化的圣经文本资源。数据集的核心研究问题在于如何有效地对齐和比较不同语言和版本的圣经文本,从而支持跨语言文本分析、机器翻译和宗教文本研究。eBible数据集的发布为相关领域的研究提供了重要的数据基础,尤其是在多语言文本处理和宗教文献数字化方面具有显著的影响力。
当前挑战
eBible数据集在构建和应用过程中面临多重挑战。首先,数据集的构建需要处理来自不同版本的圣经文本,这些文本在格式、语言和内容上存在显著差异,如何确保文本对齐的准确性和一致性是一个关键问题。其次,数据集中的文本涉及复杂的版权问题,尽管团队已尽力确保所有资源的合法使用,但仍需持续关注版权持有者的反馈和可能的纠纷。此外,数据集中的缺失经文和经文范围的处理也增加了数据清洗和标准化的难度,这对后续的研究应用提出了更高的技术要求。
常用场景
经典使用场景
eBible数据集在自然语言处理领域中被广泛用于机器翻译和跨语言文本对齐的研究。其独特的平行文本结构,特别是基于圣经不同版本的对照数据,为研究者提供了一个丰富的多语言语料库。通过这种结构,研究者可以有效地进行语言模型的训练和评估,尤其是在低资源语言的翻译任务中,eBible数据集展现了其独特的价值。
解决学术问题
eBible数据集解决了多语言文本对齐和机器翻译中的关键问题。由于圣经文本在不同语言版本中具有高度一致的章节和段落结构,研究者可以利用这一特性进行精确的跨语言对齐。此外,该数据集还为低资源语言的翻译模型提供了宝贵的训练数据,填补了这些语言在自然语言处理研究中的空白,推动了多语言技术的进步。
衍生相关工作
eBible数据集衍生了许多经典的自然语言处理研究工作。例如,基于该数据集的跨语言对齐算法和低资源语言翻译模型在学术界得到了广泛关注。此外,该数据集还被用于开发多语言文本生成模型和语言资源标注工具,进一步推动了自然语言处理技术的发展。这些工作不仅提升了机器翻译的精度,还为多语言文本处理提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作