five

sagnikrayc/snli-cf-kaushik

收藏
Hugging Face2022-11-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sagnikrayc/snli-cf-kaushik
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于SNLI语料库(版本1.0)的扩展,包含了570k个人工编写的英语句子对,手动标记为蕴含、矛盾和中立,支持自然语言推理(NLI)任务。在ICLR 2020论文《Learning the Difference that Makes a Difference with Counterfactually-Augmented Data》中,Kaushik等人提供了对SNLI和IMDB数据的反事实扰动。该数据集包含了原始数据和反事实扰动数据,用于自然语言推理任务。数据集包含三个部分:训练集、验证集和测试集,每个部分都有相应的数据实例和字段描述。
提供机构:
sagnikrayc
原始信息汇总

数据集卡片 for Counterfactually Augmented SNLI

数据集描述

数据集摘要

SNLI 语料库(版本 1.0)是一个包含 570k 个人类编写的英语句子对的手动标注集合,用于平衡分类,标签包括蕴含、矛盾和中性,支持自然语言推理(NLI)任务,也称为识别文本蕴含(RTE)。在 ICLR 2020 论文 Learning the Difference that Makes a Difference with Counterfactually-Augmented Data 中,Kaushik 等人提供了一个包含 SNLI 和 IMDB 数据反事实扰动的数据集。本仓库包含 SNLI 数据的原始和反事实扰动,这些数据是在处理来自 这里 的原始数据后生成的。

支持的任务和排行榜

  • 自然语言推理
  • 多输入文本分类

语言

数据集中的语言是英语,BCP-47 代码为 en。

数据集结构

数据实例

每个实例包含:

  • 前提(premise):字符串类型
  • 假设(hypothesis):字符串类型
  • 标签(label):包含蕴含、矛盾和中性
  • 类型(type):指示数据点是原始 SNLI 数据点还是反事实扰动
  • 索引(idx):对应原始 SNLI 数据的 ID

数据字段

  • 前提(premise):字符串类型
  • 假设(hypothesis):字符串类型
  • 标签(label):字符串类型

数据分割

数据集包含三个分割:训练(train)、验证(validation)和测试(test)。

数据集分割 分割中的实例数量
训练 8,330
验证 1,000
测试 2,000
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作