myXNLI

github2024-05-04 更新2024-05-31 收录

下载链接：

https://github.com/akhtet/myXNLI

下载链接

链接失效反馈

官方服务：

资源简介：

myXNLI数据集是XNLI语料库的缅甸语扩展，包含了缅甸语的自然语言推理（NLI）数据。该数据集通过人工翻译XNLI英语开发和测试集中的所有7,500个句子对到缅甸语，并重用了英语开发和测试集的NLI和Genre标签。此外，还包括了通过机器翻译MultiNLI训练数据从英语到缅甸语创建的NLI训练数据。数据集还包括了一个16种语言的平行语料库，其中包含了缅甸语翻译。

The myXNLI dataset is an extension of the XNLI corpus for the Burmese language, encompassing natural language inference (NLI) data in Burmese. This dataset was developed by manually translating all 7,500 sentence pairs from the English development and test sets of XNLI into Burmese, while retaining the NLI and genre labels from the English sets. Additionally, it includes NLI training data created by machine translating the MultiNLI training data from English to Burmese. The dataset also features a parallel corpus in 16 languages, which includes translations into Burmese.

创建时间：

2021-11-14

原始信息汇总

数据集名称

myXNLI - Myanmar Natural Language Inference Corpus

数据集描述

myXNLI数据集是Cross-lingual Natural Language Inference Corpus (XNLI)的扩展，专门为缅甸（Burmese）语言提供NLI基准测试数据。该数据集包括了从XNLI英语开发和测试集中人工翻译的7,500个句子对，以及通过机器翻译MultiNLI训练数据创建的缅甸语NLI训练数据。此外，数据集还增加了缅甸语翻译，形成了一个包含16种语言的平行语料库。

数据集内容

缅甸NLI测试数据集：5010条记录
缅甸NLI验证数据集：1490条记录
缅甸NLI训练数据：392,702条记录
16种语言平行语料库：包含阿拉伯语、保加利亚语、德语、希腊语、英语、西班牙语、法语、印地语、缅甸语、俄语、斯瓦希里语、泰语、土耳其语、乌尔都语、越南语、中文

文件格式

NLI数据格式：包含句子1（前提）、句子2（假设）、标签、类别
翻译文件格式：每个文件包含100个块，每个块包含块号、英语句子和缅甸语翻译，以及可选的翻译者注释

许可证

本数据集根据Creative Commons Attribution-NonCommercial许可发布。

搜集汇总

数据集介绍

构建方式

myXNLI数据集的构建基于对XNLI英语开发和测试集的7,500个句子对进行人工翻译，将其转换为缅甸语。此外，通过机器翻译将MultiNLI训练数据从英语翻译为缅甸语，并保留了原有的NLI和Genre标签。为了进一步扩展，该数据集还将缅甸语翻译添加到XNLI的15种语言平行语料库中，形成了包含16种语言的平行语料库。

特点

myXNLI数据集的主要特点在于其跨语言的自然语言推理能力，涵盖了缅甸语的开发、测试和训练数据，并扩展至16种语言的平行语料库。此外，数据集保留了原始的NLI和Genre标签，确保了跨语言推理任务的一致性。数据集的翻译过程经过人工校对，确保了翻译质量，同时提供了详细的翻译注释，便于后续的审查和改进。

使用方法

myXNLI数据集可用于自然语言推理任务的研究和模型训练，特别适用于低资源语言的处理。用户可以通过HuggingFace平台直接访问该数据集，或下载包含缅甸语NLI测试、验证和训练数据的tsv文件。数据集的文件格式清晰，便于直接导入到各种NLP模型中进行训练和评估。此外，数据集还提供了16种语言的平行语料库，适用于多语言NLP任务的研究。

背景与挑战

背景概述

自然语言推理（NLI）作为自然语言处理（NLP）领域的重要任务，旨在识别两个自然语言陈述之间的逻辑关系，包括蕴含、矛盾或中立。myXNLI数据集由研究人员扩展了XNLI数据集，专门针对缅甸语（Burmese）进行了翻译和标注。该数据集包含了从XNLI英语开发集和测试集中人工翻译的7,500对句子，并保留了原有的NLI和Genre标签。此外，myXNLI还通过机器翻译生成了缅甸语的训练数据，进一步丰富了数据集的多样性。该数据集的构建不仅填补了缅甸语在NLI任务中的空白，还为跨语言自然语言推理研究提供了宝贵的资源。

当前挑战

myXNLI数据集的构建面临多重挑战。首先，缅甸语作为一种低资源语言，其语法结构和词汇的复杂性增加了翻译和标注的难度。其次，人工翻译过程中需要确保翻译的准确性和一致性，以维持NLI任务的逻辑关系。此外，机器翻译生成的训练数据可能存在语义偏差，需通过人工校对进行修正。最后，跨语言数据集的扩展和维护，尤其是涉及多种语言的平行语料库，对数据管理和质量控制提出了更高的要求。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的技术要求。

常用场景

经典使用场景

myXNLI数据集在自然语言处理领域中，主要用于跨语言自然语言推理任务。该数据集通过提供缅甸语的翻译数据，使得研究者能够在缅甸语环境下进行自然语言推理的模型训练与评估。经典的使用场景包括但不限于：构建和评估跨语言模型，研究低资源语言的NLI任务，以及探索不同语言间的逻辑关系。

衍生相关工作

myXNLI数据集的发布激发了多项相关研究工作，特别是在低资源语言处理和跨语言模型研究方面。例如，研究者利用该数据集开发了针对缅甸语的NLI模型，并探索了跨语言迁移学习的方法。此外，该数据集还被用于研究多语言并行语料库的构建和应用，以及低资源语言的机器翻译和文本分类等任务。

数据集最近研究