five

nyu-mll/multi_nli_mismatch

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nyu-mll/multi_nli_mismatch
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-Genre Natural Language Inference (MultiNLI)数据集是一个由众包方式创建的包含433k个句子对集合,这些句子对被标注了文本蕴含信息。该数据集模仿了SNLI数据集,但覆盖了多种口语和书面语体裁,并支持跨体裁泛化评估。它是RepEval 2017研讨会共享任务的基础,该研讨会在EMNLP哥本哈根会议上举行。数据集主要用于文本分类和自然语言推理任务,包含前提、假设和标签三个特征,其中标签指示前提和假设之间的关系。

Multi-Genre Natural Language Inference (MultiNLI)数据集是一个由众包方式创建的包含433k个句子对集合,这些句子对被标注了文本蕴含信息。该数据集模仿了SNLI数据集,但覆盖了多种口语和书面语体裁,并支持跨体裁泛化评估。它是RepEval 2017研讨会共享任务的基础,该研讨会在EMNLP哥本哈根会议上举行。数据集主要用于文本分类和自然语言推理任务,包含前提、假设和标签三个特征,其中标签指示前提和假设之间的关系。
提供机构:
nyu-mll
原始信息汇总

数据集概述

名称: Multi-Genre Natural Language Inference (MultiNLI)

语言: 英语 (en)

许可证:

  • cc-by-3.0
  • cc-by-sa-3.0
  • mit
  • other

许可证详情: Open Portion of the American National Corpus

多语言性: 单语

大小类别: 100K<n<1M

源数据集: 原始

任务类别: 文本分类

任务ID:

  • natural-language-inference
  • multi-input-text-classification

论文代码ID: multinli

美观名称: Multi-Genre Natural Language Inference

数据集结构

数据实例

示例: json { "hypothesis": "independence", "label": "contradiction", "premise": "correlation" }

数据字段

  • premise: 字符串类型
  • hypothesis: 字符串类型
  • label: 字符串类型

数据分割

名称 训练 验证
plain_text 392702 10000

数据集创建

注释创建者: 众包

语言创建者:

  • 众包
  • 发现

数据集大小:

  • 下载大小: 226.85 MB
  • 数据集大小: 77.62 MB
  • 总磁盘使用: 304.46 MB

数据集摘要: MultiNLI是一个众包收集的433k句子对集合,注释有文本蕴含信息。该数据集覆盖多种口语和书面文本的体裁,并支持跨体裁泛化评估。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作