five

mteb/xnli

收藏
Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/xnli
下载链接
链接失效反馈
官方服务:
资源简介:
XNLI是MNLI数据集的一个子集,包含了14种不同语言的翻译。与MNLI一样,目标是预测文本蕴含关系(句子A是否蕴含、矛盾或与句子B无关),这是一个分类任务(给定两个句子,预测三个标签中的一个)。

XNLI是MNLI数据集的一个子集,包含了14种不同语言的翻译。与MNLI一样,目标是预测文本蕴含关系(句子A是否蕴含、矛盾或与句子B无关),这是一个分类任务(给定两个句子,预测三个标签中的一个)。
提供机构:
mteb
原始信息汇总

数据集概述

数据集名称: Cross-lingual Natural Language Inference (XNLI)

数据集ID: xnli

语言: 包含15种语言,包括阿拉伯语(ar)、保加利亚语(bg)、德语(de)、希腊语(el)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、俄语(ru)、斯瓦希里语(sw)、泰语(th)、土耳其语(tr)、乌尔都语(ur)、越南语(vi)、中文(zh)

数据集大小:

  • 下载的数据集文件大小: 7.74 GB
  • 生成的数据集大小: 3.23 GB
  • 总磁盘使用量: 10.97 GB

数据集结构

数据实例:

  • 每个实例包含三个主要字段:premise(前提)、hypothesis(假设)和label(标签)。
  • premisehypothesis 是多语言字符串,支持多种语言。
  • label 是分类标签,可能的值包括 entailment (0), neutral (1), contradiction (2)。

数据分割:

  • 数据集分为训练集、验证集和测试集。
  • 每个语言的数据分割大小相同,训练集包含392,702个实例,验证集包含2,490个实例,测试集包含5,010个实例。

数据集字段

通用字段:

  • premise: 多语言字符串
  • hypothesis: 多语言字符串
  • label: 分类标签,值为0(entailment)、1(neutral)、2(contradiction)

特定语言字段:

  • 每个语言的数据字段与通用字段相同,但语言特定。

数据集创建

数据来源:

  • 数据集是从MNLI数据集翻译而来,包含14种不同语言的翻译。

数据集目的:

  • 目的是预测文本蕴含(sentence A是否暗示/矛盾/无关sentence B),这是一个分类任务。

数据集使用考虑

数据集影响:

  • 数据集用于评估跨语言句子表示,有助于跨语言自然语言处理的研究。

数据集限制:

  • 数据集的详细限制和潜在偏见需要进一步分析。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作