pietrolesci/dnc
收藏Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/dnc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为DNLI(Diverse NLI),源自DNC数据集,专注于自然语言推理(NLI)任务。数据集中的每个样本包含上下文句子、假设句子、标签、标签集、二进制标签、数据集划分、推理类型、唯一ID等信息。数据集还包含了元数据信息,如原始语料库、语料库句子ID、语料库许可证、创建方法等。数据集通过`pair-id`键将数据和元数据合并,并移除了不相关的`misc`列。数据集的标签被映射为二进制形式,`not-entailed`对应0,`entailed`对应1。
提供机构:
pietrolesci
原始信息汇总
数据集概述
- 名称: DNLI(Diverse Natural Language Inference)
- 原始数据集: DNC
- 论文: Collecting Diverse Natural Language Inference Problems for Sentence Representation Evaluation
- 数据集版本: 专注于NLI相关的标签集
[entailed, not-entailed],不包括type-of-inference为"KG"的部分。
数据集结构
- 数据文件字段:
context: 上下文句子hypothesis: 假设句子label: 标签label-set: 可能的标签集binary-label: 二元标签(真或假)split: 分割类型(训练、验证、测试)type-of-inference: 推理类型pair-id: 唯一ID
- 元数据文件字段:
pair-id: 唯一IDcorpus: 原始语料库corpus-sent-id: 语料库中的句子IDcorpus-license: 数据许可creation-approach: 创建方法(自动、手动、人工标注)misc: 其他信息(可选)
数据处理
- 合并方式: 基于
pair-id合并数据和元数据文件。 - 标签映射:
{"not-entailed": 0, "entailed": 1} - 移除字段: 不包括
misc字段和type-of-inference为"KG"的部分。 - 数据重复: 部分实例在多个分割中重复。
数据集创建代码
- 数据读取: 使用Pandas读取JSON文件,合并数据和元数据。
- 数据清洗: 移除不必要的字段,调整数据类型,确保标签映射正确。
- 数据分割: 分为训练、验证和测试集。
- 数据上传: 上传至Hugging Face数据集仓库。
数据集检查
- 分割重叠检查: 检查不同分割间的实例重叠情况。



