sagnikrayc/snli-cf-kaushik

Name: sagnikrayc/snli-cf-kaushik
Creator: sagnikrayc
Published: 2022-11-21 22:34:23
License: 暂无描述

Hugging Face2022-11-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sagnikrayc/snli-cf-kaushik

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于SNLI语料库（版本1.0）的扩展，包含了570k个人工编写的英语句子对，手动标记为蕴含、矛盾和中立，支持自然语言推理（NLI）任务。在ICLR 2020论文《Learning the Difference that Makes a Difference with Counterfactually-Augmented Data》中，Kaushik等人提供了对SNLI和IMDB数据的反事实扰动。该数据集包含了原始数据和反事实扰动数据，用于自然语言推理任务。数据集包含三个部分：训练集、验证集和测试集，每个部分都有相应的数据实例和字段描述。

提供机构：

sagnikrayc

原始信息汇总

数据集卡片 for Counterfactually Augmented SNLI

数据集描述

数据集摘要

SNLI 语料库（版本 1.0）是一个包含 570k 个人类编写的英语句子对的手动标注集合，用于平衡分类，标签包括蕴含、矛盾和中性，支持自然语言推理（NLI）任务，也称为识别文本蕴含（RTE）。在 ICLR 2020 论文 Learning the Difference that Makes a Difference with Counterfactually-Augmented Data 中，Kaushik 等人提供了一个包含 SNLI 和 IMDB 数据反事实扰动的数据集。本仓库包含 SNLI 数据的原始和反事实扰动，这些数据是在处理来自这里的原始数据后生成的。

支持的任务和排行榜

自然语言推理
多输入文本分类

语言

数据集中的语言是英语，BCP-47 代码为 en。

数据集结构

数据实例

每个实例包含：

前提（premise）：字符串类型
假设（hypothesis）：字符串类型
标签（label）：包含蕴含、矛盾和中性
类型（type）：指示数据点是原始 SNLI 数据点还是反事实扰动
索引（idx）：对应原始 SNLI 数据的 ID

数据字段

前提（premise）：字符串类型
假设（hypothesis）：字符串类型
标签（label）：字符串类型

数据分割

数据集包含三个分割：训练（train）、验证（validation）和测试（test）。

数据集分割	分割中的实例数量
训练	8,330
验证	1,000
测试	2,000

5,000+

优质数据集

54 个

任务类型

进入经典数据集