five

akhtet/myanmar-xnli

收藏
Hugging Face2024-05-04 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/akhtet/myanmar-xnli
下载链接
链接失效反馈
官方服务:
资源简介:
myXNLI数据集是对XNLI语料库的扩展,增加了缅甸语(Myanmar)的翻译版本。数据集包括从XNLI英语开发集和测试集中人工翻译的7,500对句子,以及通过机器翻译从MultiNLI训练数据生成的缅甸语训练数据。数据集支持自然语言推理和机器翻译任务,包含缅甸语和英语两种语言。数据集结构包括句子对(前提和假设)、标签和类型,数据分为训练集、开发集和测试集。数据集的来源是MultiNLI和XNLI,注释信息也来自这两个数据集。

myXNLI数据集是对XNLI语料库的扩展,增加了缅甸语(Myanmar)的翻译版本。数据集包括从XNLI英语开发集和测试集中人工翻译的7,500对句子,以及通过机器翻译从MultiNLI训练数据生成的缅甸语训练数据。数据集支持自然语言推理和机器翻译任务,包含缅甸语和英语两种语言。数据集结构包括句子对(前提和假设)、标签和类型,数据分为训练集、开发集和测试集。数据集的来源是MultiNLI和XNLI,注释信息也来自这两个数据集。
提供机构:
akhtet
原始信息汇总

数据集概述

数据集名称: myXNLI

语言:

  • 缅甸语 (Burmese)
  • 英语 (English)

数据集大小:

  • 类别: 100K<n<1M
  • 下载大小: 131242826 字节
  • 数据集大小: 291019115 字节

许可: cc-by-nc-2.0

数据集内容

数据特征:

  • 类型: 字符串
  • 字段:
    • genre
    • label
    • sentence1_en
    • sentence2_en
    • sentence1_my
    • sentence2_my

数据分割:

  • 训练集: 392702 样本, 285372758 字节
  • 验证集: 2490 样本, 1862648 字节
  • 测试集: 5010 样本, 3783709 字节

任务类别:

  • 文本分类
  • 机器翻译

来源数据:

  • MultiNLI
  • XNLI

注释:

  • NLI 和 Genre 标签来自 MultiNLI (训练数据) 和 XNLI (验证和测试数据)

贡献者:

  • 核心翻译团队
  • 扩展翻译团队
  • 翻译修订团队
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,跨语言推理任务对低资源语言的研究至关重要。myanmar-xnli数据集的构建采用了混合翻译策略,其开发集与测试集包含的7500个句子对,均由专业翻译团队从英文XNLI语料库人工翻译为缅甸语,确保了语言表达的准确性与文化适应性。训练集则通过机器翻译将MultiNLI的英文训练数据转化为缅甸语版本,所有数据均保留了原始XNLI和MultiNLI的文本蕴含标签与体裁分类信息,从而构建了一个规模约40万样本的平行语料库。
特点
该数据集显著特点在于其双语平行结构,同时提供缅甸语与英语的句子对,为跨语言自然语言推理研究提供了直接对比的基础。数据涵盖多种文本体裁,标签体系完整,包含文本蕴含关系分类与体裁标注,支持细粒度的语言分析。作为针对缅甸语的首个大规模自然语言推理数据集,它有效填补了低资源语言在该领域的空白,为探索迁移学习与少样本学习提供了宝贵资源。
使用方法
研究人员可利用该数据集进行缅甸语自然语言推理模型的训练与评估,直接使用其训练集进行监督学习。其双语特性支持跨语言迁移学习研究,例如将英语模型的知识迁移至缅甸语任务。开发集与测试集可用于模型性能的基准测试。此外,平行语料也可服务于机器翻译模型的辅助训练或质量评估,推动低资源语言处理技术的进步。
背景与挑战
背景概述
自然语言推理作为自然语言处理的核心任务之一,旨在评估模型理解文本间逻辑关系的能力。2025年,由Aung Kyaw Htet和Mark Dras等研究人员构建的myanmar-xnli数据集应运而生,专门针对缅甸语这一低资源语言,扩展了经典的XNLI语料库。该数据集通过人工翻译与机器翻译相结合的方式,将英语的XNLI开发集、测试集及MultiNLI训练集转化为缅甸语版本,并保留了原有的推理标签与体裁分类。这一工作不仅填补了缅甸语在自然语言推理任务上的数据空白,也为低资源语言处理研究提供了宝贵的实验资源,推动了多语言模型在非主流语言上的性能评估与技术进步。
当前挑战
myanmar-xnli数据集致力于解决低资源语言在自然语言推理任务中的挑战,其核心在于如何为缅甸语构建高质量、大规模的逻辑推理标注数据。在构建过程中,研究团队面临双重困难:其一,缅甸语作为低资源语言,缺乏现成的基准数据集与成熟的预处理工具,导致数据收集与标注成本高昂;其二,翻译过程中需确保语义一致性与文化适应性,避免因直译而产生的逻辑偏差,这对人工翻译的质量控制提出了严峻考验。此外,机器翻译部分的数据质量依赖于跨语言模型的性能,如何在资源有限条件下保证翻译准确性,亦是数据集构建中的关键难题。
常用场景
经典使用场景
在自然语言处理领域,跨语言理解任务常面临低资源语言的挑战,myanmar-xnli数据集通过提供缅甸语与英语的平行语料,为自然语言推理(NLI)任务提供了经典的应用场景。该数据集将XNLI语料库扩展至缅甸语,包含人类翻译的测试集与开发集,以及机器翻译的训练集,使得研究者能够在低资源语言环境下评估模型对前提与假设之间逻辑关系的推断能力。这一场景不仅支持跨语言NLI模型的训练与测试,还为探索多语言表示学习提供了重要基准。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在低资源语言的自然语言推理方法探索上。例如,相关研究利用跨语言预训练模型(如mBERT或XLM-R)在myanmar-xnli上进行微调,评估其迁移性能;同时,也有工作专注于改进机器翻译管道以生成更高质量的缅甸语NLI数据。这些研究不仅深化了对低资源语言处理挑战的理解,还为后续构建类似语言的NLI数据集提供了方法论参考,推动了多语言NLP生态的完善。
数据集最近研究
最新研究方向
在低资源自然语言处理领域,缅甸语自然语言推理数据集myXNLI的发布,为跨语言模型迁移学习提供了关键资源。该数据集通过人工翻译与机器翻译相结合的方式构建,推动了针对缅甸语等低资源语言的少样本学习与零样本推理研究。前沿探索聚焦于多语言预训练模型的适应性微调,以及利用该平行语料库提升机器翻译系统的语义对齐能力。相关研究正深入探讨数据增强与跨语言表示对齐技术,以缓解低资源语言在自然语言理解任务中的数据稀缺挑战,对促进语言技术公平性具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作