hmar_bible_dataset

Hugging Face2024-12-20 更新2024-12-21 收录

下载链接：

https://huggingface.co/datasets/keikanih/hmar_bible_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含英语和Hmar语言的平行经文，源自**美国标准版（ASV）**英语和**印度圣经协会基督教文学（CLBSI）**Hmar语。数据集结构化，便于语言学和翻译研究。每个书籍保存为单独的CSV文件，包含英语和Hmar语的经文。数据集由Donal Muolhoi策划，语言包括英语和Hmar，许可证为CC-BY-4.0。数据集可用于语言分析、翻译研究和多语言及低资源语言模型的训练或微调。数据集不适合非学术或商业用途，也不推荐用于需要上下文注释的任务。数据集由ASV圣经和CLBSI圣经的经文组成，每个书籍的CSV文件包含英语和Hmar语的经文。数据集在创建过程中纠正了ASV和CLBSI圣经之间的不匹配行。数据集反映了英语和Hmar语之间的语法和语言差异，并尽可能接近地捕捉了经文的意图。数据集的创建旨在促进Hmar语言的保存，并促进低资源语言的语言学研究和翻译模型开发。

创建时间：

2024-12-20

原始信息汇总

Hmar Bible Dataset

数据集描述

该数据集包含英语和Hmar语言的平行经文，英语部分来自美国标准版（ASV），Hmar部分来自印度圣经协会的基督教文学（CLBSI）。数据集结构化，便于语言学和翻译研究。

数据集详情

数据集结构

语言： 英语, Hmar
许可证： CC-BY-4.0
数据格式： 每个书籍的CSV文件

数据集内容

每个书籍的CSV文件包含以下列：

en: 来自ASV的英语经文内容。
hmr: 来自CLBSI的Hmar经文内容。

数据集来源

英语来源： 美国标准版（ASV）圣经
Hmar来源： 印度圣经协会的基督教文学（CLBSI）

数据集用途

直接用途：
1. 语言学分析和翻译研究。
2. 多语言和低资源语言模型的训练或微调。
3. 跨语言信息检索任务。
超出范围的用途：
1. 不适合违反许可协议的非学术或商业用途。
2. 不推荐用于需要上下文注释的任务，因为数据集仅包含原始经文。

数据集创建

创建理由： 促进Hmar语言的保存，并支持低资源语言的语言学研究和翻译模型开发。
数据收集和处理： 从ASV和CLBSI收集经文，按逐节匹配创建CSV文件。

数据集修正

在数据集创建过程中，发现了ASV和CLBSI之间的行不匹配，并在以下书籍中进行了修正：

3 John: ASV包含14节，而CLBSI包含15节。
Ephesians: ASV包含155节，而CLBSI包含154节。
Revelation: ASV包含404节，而CLBSI包含405节。

数据集观察

尽管翻译力求字面意义，但由于英语和Hmar之间的固有语法和语言差异，无法实现100%的逐字对齐。数据集反映了这些细微差别，并尽可能捕捉了经文的意图。

数据集局限性

偏见：
- ASV和CLBSI之间的翻译差异可能引入语义不匹配。
- 文化和教义差异可能影响翻译。
技术局限性：
- 仅限于逐节翻译。上下文分析可能需要额外数据。
- ASV和Hmar的经文可能由于源文本的结构差异而无法完全对齐。

引用

bibtex @dataset{asv_clbsi_bible, title = {Hmar Bible Dataset}, author = {Donal Muolhoi}, year = {2024}, publisher = {https://huggingface.co/datasets/keikanih/Hmar_Bible_Dataset}, license = {CC-BY-4.0} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于《美国标准版圣经》（ASV）的英文文本与《印度圣经协会基督教文学》（CLBSI）的Hmar语文本，通过逐句匹配的方式生成。每个圣经书卷被单独保存为CSV文件，文件中包含英文和Hmar语的平行翻译。在构建过程中，发现并纠正了ASV与CLBSI版本在某些书卷中的行数不一致问题，如《约翰三书》、《以弗所书》和《启示录》，确保了数据集的准确性和一致性。

特点

该数据集的主要特点在于其平行翻译的结构，适用于语言学分析和翻译研究。它为低资源语言模型提供了宝贵的训练数据，并支持跨语言信息检索任务。此外，数据集保留了英文与Hmar语之间的语法和语言差异，反映了两种语言在翻译中的细微差别。

使用方法

该数据集可用于多种自然语言处理任务，包括但不限于语言学分析、翻译模型训练和跨语言信息检索。用户可以通过加载每个书卷的CSV文件，提取英文和Hmar语的平行翻译数据。建议在使用前进行适当的数据预处理和验证，以确保数据集在特定应用中的有效性。

背景与挑战

背景概述

Hmar Bible Dataset是由Donal Muolhoi精心策划的平行文本数据集，旨在促进Hmar语言的保存与研究。该数据集包含了从《美国标准版圣经》（ASV）和《印度圣经协会基督教文学》（CLBSI）中提取的英语与Hmar语的平行圣经经文。其创建的核心目的是支持低资源语言的翻译研究与语言学分析，尤其是在多语言模型训练和跨语言信息检索任务中具有重要应用价值。通过将每本书的经文以CSV文件形式保存，数据集为研究者提供了便捷的访问方式，并确保了数据的准确性与一致性。

当前挑战

尽管Hmar Bible Dataset在促进Hmar语言研究方面具有显著潜力，但其构建过程中仍面临诸多挑战。首先，由于ASV与CLBSI版本在某些书籍中的经文数量不一致，如《约翰三书》、《以弗所书》和《启示录》，数据集的创建者不得不进行手动校正以确保平行文本的准确性。其次，英语与Hmar语在语法和语言结构上的差异导致无法实现完全的逐字对齐，这为翻译研究带来了一定的复杂性。此外，数据集仅包含原始经文内容，缺乏上下文注释，限制了其在需要语境分析的任务中的应用。最后，文化与教义差异可能影响翻译的准确性，进一步增加了数据集的使用难度。

常用场景

经典使用场景

Hmar Bible Dataset 的经典使用场景主要集中在语言学分析和翻译研究领域。该数据集提供了英语和Hmar语的平行文本，使得研究者能够深入探讨两种语言之间的语法、词汇和语义差异。此外，该数据集还可用于训练或微调多语言模型，特别是在处理低资源语言时，为模型提供了宝贵的语料资源。

解决学术问题

该数据集解决了低资源语言翻译和语言学研究中的常见问题。通过提供英语和Hmar语的平行文本，研究者能够分析两种语言之间的翻译对齐问题，探讨语言间的语义差异和文化影响。这对于促进Hmar语言的保存和研究具有重要意义，同时也为低资源语言的机器翻译研究提供了宝贵的数据支持。

衍生相关工作

基于Hmar Bible Dataset，研究者已开展了一系列相关工作，包括低资源语言的翻译模型优化、语言学特征分析以及跨语言信息检索系统的开发。这些工作不仅推动了Hmar语言的研究和应用，还为其他低资源语言的翻译和语言学研究提供了参考和借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集