pietrolesci/conj_nli
收藏Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/conj_nli
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于测试自然语言推理在连接句子上表现的压力测试集,其中前提与假设通过连接词的移除、添加或替换而有所不同。数据集的标签映射为常见的NLI数据集标签映射,即`{"entailment": 0, "neutral": 1, "contradiction": 2}`。数据分割包括训练集、开发集和测试集,其中测试集没有标签。训练集和开发集中存在2个重复实例,训练集中还有一些没有标签的实例,这些实例已被移除。
This dataset is a stress test set for evaluating natural language inference (NLI) performance on connected sentences. The premises and hypotheses within the dataset are modified via the removal, addition, or substitution of connectives. The label mapping of this dataset follows the standard convention used in mainstream NLI datasets, specifically `{"entailment": 0, "neutral": 1, "contradiction": 2}`. The dataset is split into three subsets: training, development, and test sets, where the test set is unlabeled. There are 2 duplicate instances in both the training and development sets, and some unlabeled instances in the training set, all of which have been removed.
提供机构:
pietrolesci
原始信息汇总
数据集概述
- 目的:该数据集用于自然语言推理任务,特别是在连接句子的场景下进行压力测试。
- 特点:数据集中的前提和假设通过移除、添加或替换连接词来区分。
数据集结构
- 数据划分:包含训练集(
adversarial_train_15k)、开发集(conj_dev)和测试集(conj_test)。 - 标签映射:使用标准NLI标签映射,即
{"entailment": 0, "neutral": 1, "contradiction": 2}。 - 标签可用性:训练集和开发集包含标签,测试集不包含标签。
- 数据清理:训练集中无标签的实例已被移除。
数据集创建
- 数据加载:使用Pandas从指定路径加载数据。
- 标签处理:对非测试集数据进行标签映射和清理,测试集数据标记为-1。
- 数据转换:将数据转换为Dataset对象,并定义了特征结构。
- 数据集合并:将所有数据集合并为一个DatasetDict对象。
- 数据集上传:数据集被上传到Hugging Face Hub。
数据集交叉检查
- 检查结果:训练集和开发集之间存在2个重叠实例,其他组合无重叠。



