pietrolesci/scitail
收藏Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/scitail
下载链接
链接失效反馈官方服务:
资源简介:
该数据集与HuggingFace Hub上的SciTail数据集的`snli_format`分割相同,包含相同的数据和分割。数据集经过以下修改:仅选择了`["sentence1", "sentence2", "gold_label", "label"]`列;将列名从`"sentence1"`和`"sentence2"`分别重命名为`"premise"`和`"hypothesis"`;从`"gold_label"`创建了一个新列`"label"`,并将标签编码为`{"not_entailment": 0, "entailment": 1}`。此外,训练集和测试集之间存在10个重叠实例。
本数据集与HuggingFace Hub上的SciTail数据集的`snli_format`(SNLI格式)分割完全一致,数据内容与划分方式均相同。该数据集经过如下预处理操作:仅保留`["sentence1", "sentence2", "gold_label", "label"]`四列;将原列名`sentence1`与`sentence2`分别重命名为`premise`(前提)与`hypothesis`(假设);从`gold_label`字段生成新列`label`,并将标签编码为`{"not_entailment": 0, "entailment": 1}`。此外,该数据集的训练集与测试集间存在10个重叠样本实例。
提供机构:
pietrolesci
原始信息汇总
数据集概述
- 数据集原版可在HuggingFace Hub上获取,链接为此处。
数据集整理
- 本数据集与HuggingFace Hub上的SciTail数据集的
snli_format分割相同,包括数据和分割方式。 - 主要差异包括:
- 仅选择
["sentence1", "sentence2", "gold_label", "label"]列。 - 重命名列,将
"sentence1"改为"premise","sentence2"改为"hypothesis"。 - 从
"gold_label"创建新列"label",并进行映射,如"entailment"映射为"entailment","neutral"映射为"not_entailment"。 - 对标签进行编码,
"not_entailment"编码为0,"entailment"编码为1。
- 仅选择
- 注意:
train和test分割中有10个重叠实例。
数据集创建代码
- 使用
load_dataset从Hub加载数据集。 - 选择重要列并重命名。
- 对标签进行编码和映射。
- 检查分割间的重叠情况,发现
train和test之间有10个重叠实例,而train和validation以及test和validation之间没有重叠。



