pietrolesci/dnc

Name: pietrolesci/dnc
Creator: pietrolesci
Published: 2022-04-25 08:59:06
License: 暂无描述

Hugging Face2022-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/dnc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为DNLI（Diverse NLI），源自DNC数据集，专注于自然语言推理（NLI）任务。数据集中的每个样本包含上下文句子、假设句子、标签、标签集、二进制标签、数据集划分、推理类型、唯一ID等信息。数据集还包含了元数据信息，如原始语料库、语料库句子ID、语料库许可证、创建方法等。数据集通过`pair-id`键将数据和元数据合并，并移除了不相关的`misc`列。数据集的标签被映射为二进制形式，`not-entailed`对应0，`entailed`对应1。

提供机构：

pietrolesci

原始信息汇总

数据集概述

名称: DNLI（Diverse Natural Language Inference）
原始数据集: DNC
论文: Collecting Diverse Natural Language Inference Problems for Sentence Representation Evaluation
数据集版本: 专注于NLI相关的标签集[entailed, not-entailed]，不包括type-of-inference为"KG"的部分。

数据集结构

数据文件字段:
- context: 上下文句子
- hypothesis: 假设句子
- label: 标签
- label-set: 可能的标签集
- binary-label: 二元标签（真或假）
- split: 分割类型（训练、验证、测试）
- type-of-inference: 推理类型
- pair-id: 唯一ID
元数据文件字段:
- pair-id: 唯一ID
- corpus: 原始语料库
- corpus-sent-id: 语料库中的句子ID
- corpus-license: 数据许可
- creation-approach: 创建方法（自动、手动、人工标注）
- misc: 其他信息（可选）

数据处理

合并方式: 基于pair-id合并数据和元数据文件。
标签映射: {"not-entailed": 0, "entailed": 1}
移除字段: 不包括misc字段和type-of-inference为"KG"的部分。
数据重复: 部分实例在多个分割中重复。

数据集创建代码

数据读取: 使用Pandas读取JSON文件，合并数据和元数据。
数据清洗: 移除不必要的字段，调整数据类型，确保标签映射正确。
数据分割: 分为训练、验证和测试集。
数据上传: 上传至Hugging Face数据集仓库。

数据集检查

分割重叠检查: 检查不同分割间的实例重叠情况。

5,000+

优质数据集

54 个

任务类型

进入经典数据集