mteb/xnli
收藏Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/xnli
下载链接
链接失效反馈官方服务:
资源简介:
XNLI是MNLI数据集的一个子集,包含了14种不同语言的翻译。与MNLI一样,目标是预测文本蕴含关系(句子A是否蕴含、矛盾或与句子B无关),这是一个分类任务(给定两个句子,预测三个标签中的一个)。
XNLI是MNLI数据集的一个子集,包含了14种不同语言的翻译。与MNLI一样,目标是预测文本蕴含关系(句子A是否蕴含、矛盾或与句子B无关),这是一个分类任务(给定两个句子,预测三个标签中的一个)。
提供机构:
mteb
原始信息汇总
数据集概述
数据集名称: Cross-lingual Natural Language Inference (XNLI)
数据集ID: xnli
语言: 包含15种语言,包括阿拉伯语(ar)、保加利亚语(bg)、德语(de)、希腊语(el)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、俄语(ru)、斯瓦希里语(sw)、泰语(th)、土耳其语(tr)、乌尔都语(ur)、越南语(vi)、中文(zh)
数据集大小:
- 下载的数据集文件大小: 7.74 GB
- 生成的数据集大小: 3.23 GB
- 总磁盘使用量: 10.97 GB
数据集结构
数据实例:
- 每个实例包含三个主要字段:
premise(前提)、hypothesis(假设)和label(标签)。 premise和hypothesis是多语言字符串,支持多种语言。label是分类标签,可能的值包括entailment(0),neutral(1),contradiction(2)。
数据分割:
- 数据集分为训练集、验证集和测试集。
- 每个语言的数据分割大小相同,训练集包含392,702个实例,验证集包含2,490个实例,测试集包含5,010个实例。
数据集字段
通用字段:
premise: 多语言字符串hypothesis: 多语言字符串label: 分类标签,值为0(entailment)、1(neutral)、2(contradiction)
特定语言字段:
- 每个语言的数据字段与通用字段相同,但语言特定。
数据集创建
数据来源:
- 数据集是从MNLI数据集翻译而来,包含14种不同语言的翻译。
数据集目的:
- 目的是预测文本蕴含(sentence A是否暗示/矛盾/无关sentence B),这是一个分类任务。
数据集使用考虑
数据集影响:
- 数据集用于评估跨语言句子表示,有助于跨语言自然语言处理的研究。
数据集限制:
- 数据集的详细限制和潜在偏见需要进一步分析。



