five

pietrolesci/dnc

收藏
Hugging Face2022-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/dnc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为DNLI(Diverse NLI),源自DNC数据集,专注于自然语言推理(NLI)任务。数据集中的每个样本包含上下文句子、假设句子、标签、标签集、二进制标签、数据集划分、推理类型、唯一ID等信息。数据集还包含了元数据信息,如原始语料库、语料库句子ID、语料库许可证、创建方法等。数据集通过`pair-id`键将数据和元数据合并,并移除了不相关的`misc`列。数据集的标签被映射为二进制形式,`not-entailed`对应0,`entailed`对应1。
提供机构:
pietrolesci
原始信息汇总

数据集概述

数据集结构

  • 数据文件字段:
    • context: 上下文句子
    • hypothesis: 假设句子
    • label: 标签
    • label-set: 可能的标签集
    • binary-label: 二元标签(真或假)
    • split: 分割类型(训练、验证、测试)
    • type-of-inference: 推理类型
    • pair-id: 唯一ID
  • 元数据文件字段:
    • pair-id: 唯一ID
    • corpus: 原始语料库
    • corpus-sent-id: 语料库中的句子ID
    • corpus-license: 数据许可
    • creation-approach: 创建方法(自动、手动、人工标注)
    • misc: 其他信息(可选)

数据处理

  • 合并方式: 基于pair-id合并数据和元数据文件。
  • 标签映射: {"not-entailed": 0, "entailed": 1}
  • 移除字段: 不包括misc字段和type-of-inference为"KG"的部分。
  • 数据重复: 部分实例在多个分割中重复。

数据集创建代码

  • 数据读取: 使用Pandas读取JSON文件,合并数据和元数据。
  • 数据清洗: 移除不必要的字段,调整数据类型,确保标签映射正确。
  • 数据分割: 分为训练、验证和测试集。
  • 数据上传: 上传至Hugging Face数据集仓库。

数据集检查

  • 分割重叠检查: 检查不同分割间的实例重叠情况。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作