pietrolesci/dialogue_nli

Name: pietrolesci/dialogue_nli
Creator: pietrolesci
Published: 2022-04-25 08:39:10
License: 暂无描述

Hugging Face2022-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/dialogue_nli

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于一个外部链接，原始标签列被重命名为`original_label`，并且标签类别被重新命名为`entailment`、`neutral`和`contradiction`，并分别编码为0、1和2。数据集包含多个分割（如train、dev、test等），每个分割包含的列信息也被列出。此外，README还提供了用于创建数据集的Python代码，并检查了不同分割之间的重叠情况。

This dataset is sourced from an external link. The original label column was renamed to `original_label`, and the label categories were renamed to `entailment`, `neutral`, and `contradiction`, which were respectively encoded as 0, 1, and 2. The dataset includes multiple splits (e.g., train, dev, test, etc.), and the column information for each split is also listed. Additionally, the README provides Python code for creating the dataset and checks for overlaps between different splits.

提供机构：

pietrolesci

原始信息汇总

数据集概述

数据集名称

原始数据集名称：dialogue_nli

数据集处理

原始标签列重命名为original_label。
原始类别重命名并编码：
- "positive" → "entailment" (编码为0)
- "negative" → "contradiction" (编码为2)
- "neutral" → "neutral" (编码为1)
新增列label存储编码后的类别。

数据集结构

包含多个分割，每个分割具有以下共同列：
- dtype
- id
- sentence1
- sentence2
- original_label
- label
- triple1
- triple2
分割包括：
- train
- dev
- test
- verified_test
- extra_test
- extra_dev
- extra_train
- valid_havenot
- valid_attributes
- valid_likedislike

数据集创建

使用Python脚本处理数据，包括加载、处理标签、重命名分割等步骤。
数据集特征定义包括类别标签、字符串类型的句子和其他元数据。
数据集上传至Hub，命名为"dialogue_nli"。

数据集分割重叠检查

通过比较original_label、sentence1和sentence2检查不同分割间的实例重叠情况。
结果显示部分分割间存在实例重叠，如train与dev、test与verified_test等。

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，对话式自然语言推理数据集dialogue_nli的构建体现了对原始数据的系统性重构。该数据集源自公开的对话自然语言推理资源，通过重新映射标签体系，将原有的'positive'、'negative'、'neutral'类别分别转换为标准自然语言推理任务中的'entailment'、'contradiction'、'neutral'，并采用数值编码进行统一表示。构建过程中，通过提取多个原始数据分片的共同特征列，确保了数据结构的一致性，同时剔除了部分分片中特有的注释列，最终形成了包含训练集、开发集、测试集及多个专项验证集的结构化数据集。

特点

该数据集的核心特征在于其多层次的分片结构，不仅包含基础训练、开发和测试分片，还提供了经过人工验证的测试集以及针对特定语义属性的专项验证集。数据条目涵盖对话语句对、对应的三元组表示以及原始标签信息，为模型提供了丰富的语义推理线索。值得注意的是，不同分片之间存在部分实例重叠，这一特性为研究数据分布对模型性能的影响提供了实证基础。数据集整体呈现出对话语境下自然语言推理任务的复杂性和多样性。

使用方法

使用该数据集时，研究者可通过HuggingFace数据集库直接加载，利用其预定义的特征结构进行模型训练与评估。数据集支持标准自然语言推理任务的流程，包括文本对编码、标签预测等。针对不同研究需求，可选择特定分片进行实验，例如使用verified_test分片获取更可靠的性能评估，或利用专项验证集分析模型在特定语义关系上的推理能力。数据加载后可通过检查分片间重叠实例，深入理解数据划分对实验结果的影响。

背景与挑战

背景概述

对话自然语言推理（Dialogue NLI）数据集由Wellecks等研究人员于2020年构建，旨在探索对话语境下的自然语言推理任务。该数据集聚焦于对话中语句间的逻辑关系，核心研究问题在于判断两个对话语句是否蕴含、矛盾或保持中立关系。其构建基于大规模对话语料，通过标注三元组结构增强推理的可解释性，为对话理解与推理模型提供了重要基准，推动了对话系统与自然语言推理领域的交叉研究。

当前挑战

对话自然语言推理任务面临多重挑战：在领域问题上，对话语句常包含隐含语境、口语化表达及多轮交互依赖，使得逻辑关系判定比传统文本推理更为复杂；构建过程中，数据标注需处理对话的连贯性与动态性，确保标注一致性与高质量成为难点。此外，数据集中存在分割重叠现象，如部分实例在训练、开发与测试集间重复，可能影响模型评估的严谨性，需通过精细的数据清洗与分割策略来应对。

常用场景

经典使用场景

在自然语言推理领域，对话自然语言推理数据集为模型评估提供了关键基准。该数据集通过对话语境中的句子对，构建蕴含、中立或矛盾的三元关系，典型应用于训练和验证对话理解模型。研究者利用其丰富的对话实例，探索语言模型在复杂交互场景下的推理能力，尤其在多轮对话的连贯性分析中展现出独特价值。

解决学术问题

该数据集有效应对了传统自然语言推理任务在对话语境中的局限性，解决了对话隐含逻辑关系的形式化建模难题。通过标注对话句对间的语义关联，为学术研究提供了细粒度的推理数据支撑，促进了对话理解中语境依赖与常识推理的融合探索。其标注体系推动了对话推理任务的标准化，为评估模型在开放域对话中的逻辑一致性奠定了数据基础。

衍生相关工作

围绕该数据集衍生的经典工作包括对话感知的自然语言推理模型架构创新，如基于注意力机制的对话编码器与图神经网络的应用。多项研究利用其三元组结构探索对话中的知识推理路径，推动了对话状态跟踪与语义角色标注的联合建模。这些工作进一步拓展了数据集的学术边界，为跨任务对话理解提供了可复现的实验框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集