nyu-mll/multi_nli_mismatch
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nyu-mll/multi_nli_mismatch
下载链接
链接失效反馈官方服务:
资源简介:
Multi-Genre Natural Language Inference (MultiNLI)数据集是一个由众包方式创建的包含433k个句子对集合,这些句子对被标注了文本蕴含信息。该数据集模仿了SNLI数据集,但覆盖了多种口语和书面语体裁,并支持跨体裁泛化评估。它是RepEval 2017研讨会共享任务的基础,该研讨会在EMNLP哥本哈根会议上举行。数据集主要用于文本分类和自然语言推理任务,包含前提、假设和标签三个特征,其中标签指示前提和假设之间的关系。
Multi-Genre Natural Language Inference (MultiNLI)数据集是一个由众包方式创建的包含433k个句子对集合,这些句子对被标注了文本蕴含信息。该数据集模仿了SNLI数据集,但覆盖了多种口语和书面语体裁,并支持跨体裁泛化评估。它是RepEval 2017研讨会共享任务的基础,该研讨会在EMNLP哥本哈根会议上举行。数据集主要用于文本分类和自然语言推理任务,包含前提、假设和标签三个特征,其中标签指示前提和假设之间的关系。
提供机构:
nyu-mll
原始信息汇总
数据集概述
名称: Multi-Genre Natural Language Inference (MultiNLI)
语言: 英语 (en)
许可证:
- cc-by-3.0
- cc-by-sa-3.0
- mit
- other
许可证详情: Open Portion of the American National Corpus
多语言性: 单语
大小类别: 100K<n<1M
源数据集: 原始
任务类别: 文本分类
任务ID:
- natural-language-inference
- multi-input-text-classification
论文代码ID: multinli
美观名称: Multi-Genre Natural Language Inference
数据集结构
数据实例
示例: json { "hypothesis": "independence", "label": "contradiction", "premise": "correlation" }
数据字段
- premise: 字符串类型
- hypothesis: 字符串类型
- label: 字符串类型
数据分割
| 名称 | 训练 | 验证 |
|---|---|---|
| plain_text | 392702 | 10000 |
数据集创建
注释创建者: 众包
语言创建者:
- 众包
- 发现
数据集大小:
- 下载大小: 226.85 MB
- 数据集大小: 77.62 MB
- 总磁盘使用: 304.46 MB
数据集摘要: MultiNLI是一个众包收集的433k句子对集合,注释有文本蕴含信息。该数据集覆盖多种口语和书面文本的体裁,并支持跨体裁泛化评估。



