Hmar Bible Dataset

github2025-01-05 更新2025-01-06 收录

下载链接：

https://github.com/hmar-lang/hmar-bible-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含英语和Hmar语言的平行经文，来自英语的《美国标准版圣经》(ASV)和Hmar语的《印度圣经协会基督教文学》(CLBSI)。数据集旨在促进语言学和翻译研究。

This dataset contains parallel biblical texts in English and Hmar, sourced from the American Standard Version (ASV) in English and the Christian Literature of the Bible Society of India (CLBSI) in Hmar. It is designed to promote linguistic and translation research.

创建时间：

2024-12-20

原始信息汇总

Hmar Bible Dataset 概述

数据集基本信息

许可证: MIT
语言: 英语 (English), Hmar
数据集类型: 平行文本
数据集格式: CSV 文件
数据集来源:
- 英语数据来自 American Standard Version (ASV) 圣经
- Hmar 数据来自 Christian Literature by Bible Society of India (CLBSI) 圣经
数据集创建者: Donal Muolhoi
数据集发布年份: 2024

数据集内容

数据集描述: 该数据集包含英语和 Hmar 语言的平行圣经经文，适用于语言学和翻译研究。
数据集结构: 每个圣经书卷保存为一个单独的 CSV 文件，文件名为 <Book_Name>.csv（例如 Genesis.csv）。
- 列:
  - en: 英语经文内容（来自 ASV）
  - hmr: Hmar 经文内容（来自 CLBSI）

数据集用途

直接用途:
1. 语言分析和翻译研究
2. 训练或微调多语言和低资源语言模型
3. 跨语言信息检索任务
不适用范围:
1. 违反许可协议的非学术或商业用途
2. 需要上下文注释的任务（仅包含原始经文）

数据集创建与处理

创建动机: 促进 Hmar 语言的保护，并支持低资源语言的翻译模型开发。
数据处理: JSON 文件中的经文被解析并按节匹配，生成每个书卷的 CSV 文件。
数据生产者:
1. ASV 圣经委员会
2. 印度圣经协会基督教文学 (CLBSI)

数据集修正与观察

修正: 在数据集创建过程中，发现并修正了 ASV 和 CLBSI 圣经之间的不匹配行，特别是在以下书卷中：
1. 3 John: ASV 包含 14 节，CLBSI 包含 15 节
2. Ephesians: ASV 包含 155 节，CLBSI 包含 154 节
3. Revelation: ASV 包含 404 节，CLBSI 包含 405 节
观察: 由于英语和 Hmar 之间的语法和语言差异，翻译无法实现 100% 的字对字对齐，但数据集尽可能接近地捕捉了原意。

数据集偏见、风险与限制

偏见:
1. ASV 和 CLBSI 之间的翻译差异可能导致语义不匹配
2. 文化和教义差异可能影响翻译
技术限制:
1. 仅限于节级翻译，上下文分析可能需要额外数据
2. ASV 和 Hmar 的经文可能由于源文本的结构差异而不完全对齐

引用

bibtex @dataset{asv_clbsi_bible, title = {Hmar Bible Dataset}, author = {Hmar Language Dataset Project}, year = {2024}, publisher = {https://huggingface.co/datasets/hmar-lang/Hmar-Bible-Dataset}, license = {CC-BY-4.0} }

数据集作者与联系方式

数据集作者: Hmar Language Dataset Project
联系方式: donalmuolhoi@gmail.com

搜集汇总

数据集介绍

构建方式

Hmar Bible Dataset的构建基于《美国标准版圣经》（ASV）和《印度圣经协会基督教文学》（CLBSI）的平行经文数据。数据集通过逐节对齐的方式，将英文和Hmar语的经文进行匹配，并以CSV文件的形式存储，每个圣经书卷对应一个独立的文件。在构建过程中，针对ASV和CLBSI之间存在的节数不匹配问题，进行了人工校对和修正，以确保数据的准确性和一致性。

使用方法

Hmar Bible Dataset适用于语言学分析、翻译研究以及低资源语言模型的训练和微调。用户可以通过加载CSV文件直接访问逐节的平行经文数据，并利用其进行跨语言信息检索等任务。在使用时，建议用户对数据进行预处理和验证，以确保其在具体应用中的有效性。此外，数据集不适用于需要上下文注释的任务，因其仅包含原始经文内容。

背景与挑战

背景概述

Hmar Bible Dataset 是一个专注于英语与Hmar语平行翻译的圣经数据集，旨在促进语言学研究和低资源语言的翻译模型开发。该数据集由Donal Muolhoi于2024年创建，数据来源于美国标准版圣经（ASV）和印度基督教文学协会（CLBSI）的Hmar语圣经。通过逐节对齐的方式，数据集为每卷圣经提供了独立的CSV文件，便于进行跨语言分析和模型训练。该数据集的发布不仅有助于Hmar语的保存与研究，还为低资源语言的机器翻译任务提供了宝贵资源。

当前挑战

Hmar Bible Dataset 在构建过程中面临多重挑战。首先，英语与Hmar语之间的语法和语言结构差异导致逐字对齐的困难，翻译过程中难以实现完全一致的语义匹配。其次，源文本（ASV与CLBSI）在部分章节的节数上存在不一致，例如《约翰三书》、《以弗所书》和《启示录》的节数差异，需通过人工校对和修正以确保数据对齐。此外，数据集仅提供原始经文内容，缺乏上下文注释，限制了其在需要深度语义分析任务中的应用。这些挑战凸显了低资源语言数据处理中的复杂性与技术限制。

常用场景

经典使用场景

Hmar Bible数据集在语言学和翻译研究领域具有广泛的应用。该数据集提供了英语和Hmar语的平行经文，特别适用于低资源语言的机器翻译模型训练和跨语言信息检索任务。通过对比分析两种语言的经文，研究者可以深入探讨语言结构、语法差异以及翻译策略的优化。

解决学术问题

Hmar Bible数据集为低资源语言的翻译研究提供了宝贵的数据支持。它解决了传统翻译研究中数据稀缺的问题，尤其是在Hmar语这种资源匮乏的语言背景下。通过该数据集，研究者能够开发更精确的多语言翻译模型，并推动低资源语言的自然语言处理技术的发展。此外，该数据集还为语言学家提供了研究语言演变和文化差异的素材。

实际应用

在实际应用中，Hmar Bible数据集被广泛用于宗教文本的翻译和传播，特别是在Hmar语社区中。该数据集还为语言教育提供了支持，帮助学习者通过对比英语和Hmar语的经文，掌握两种语言的语法和词汇。此外，该数据集还被用于开发跨语言的宗教信息检索系统，提升宗教文献的可访问性。

数据集最近研究