five

pietrolesci/scitail

收藏
Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/scitail
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集与HuggingFace Hub上的SciTail数据集的`snli_format`分割相同,包含相同的数据和分割。数据集经过以下修改:仅选择了`["sentence1", "sentence2", "gold_label", "label"]`列;将列名从`"sentence1"`和`"sentence2"`分别重命名为`"premise"`和`"hypothesis"`;从`"gold_label"`创建了一个新列`"label"`,并将标签编码为`{"not_entailment": 0, "entailment": 1}`。此外,训练集和测试集之间存在10个重叠实例。

本数据集与HuggingFace Hub上的SciTail数据集的`snli_format`(SNLI格式)分割完全一致,数据内容与划分方式均相同。该数据集经过如下预处理操作:仅保留`["sentence1", "sentence2", "gold_label", "label"]`四列;将原列名`sentence1`与`sentence2`分别重命名为`premise`(前提)与`hypothesis`(假设);从`gold_label`字段生成新列`label`,并将标签编码为`{"not_entailment": 0, "entailment": 1}`。此外,该数据集的训练集与测试集间存在10个重叠样本实例。
提供机构:
pietrolesci
原始信息汇总

数据集概述

  • 数据集原版可在HuggingFace Hub上获取,链接为此处

数据集整理

  • 本数据集与HuggingFace Hub上的SciTail数据集的snli_format分割相同,包括数据和分割方式。
  • 主要差异包括:
    • 仅选择["sentence1", "sentence2", "gold_label", "label"]列。
    • 重命名列,将"sentence1"改为"premise""sentence2"改为"hypothesis"
    • "gold_label"创建新列"label",并进行映射,如"entailment"映射为"entailment""neutral"映射为"not_entailment"
    • 对标签进行编码,"not_entailment"编码为0,"entailment"编码为1。
  • 注意:traintest分割中有10个重叠实例。

数据集创建代码

  • 使用load_dataset从Hub加载数据集。
  • 选择重要列并重命名。
  • 对标签进行编码和映射。
  • 检查分割间的重叠情况,发现traintest之间有10个重叠实例,而trainvalidation以及testvalidation之间没有重叠。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作