henry12348/DiPlomat

Name: henry12348/DiPlomat
Creator: henry12348
Published: 2023-11-13 04:46:54
License: 暂无描述

Hugging Face2023-11-13 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/henry12348/DiPlomat

下载链接

链接失效反馈

官方服务：

资源简介：

DiPlomat数据集旨在评估机器在实用推理和情境对话理解方面的能力，提供了一个统一的框架来理解一般实用推理。数据集包含4,177条数据，覆盖48,900个词汇，并包含6,494个人工标注的答案，涵盖5种推理类型。数据集包含两个主要任务：实用识别和推理（PIR）以及对话问答（CQA），并提供了用于零样本NLI的数据。数据集的创建过程包括自动选择、细粒度标注和人工精炼三个步骤。

The DiPlomat dataset is designed to evaluate machines' capabilities in practical reasoning and situated dialogue understanding, and provides a unified framework for comprehending general practical reasoning. The dataset consists of 4,177 instances, encompasses a total of 48,900 vocabulary tokens, and includes 6,494 manually annotated answers covering 5 types of reasoning. It features two primary tasks: Practical Recognition and Inference (PIR) and Conversational Question Answering (CQA), and also provides data for zero-shot natural language inference (NLI). The construction of the dataset involves three steps: automatic selection, fine-grained annotation, and human refinement.

提供机构：

henry12348

原始信息汇总

DiPlomat 数据集概述

数据集信息

配置名称：CQA

特征：
- text: 字符串序列
- speaker: 字符串序列
- gold_statement: 字符串
- questions: 字符串
- answer: 字符串
分割：
- train: 19805284 字节，15585 个样本
- validation: 1959148 字节，1559 个样本
- test: 2967746 字节，2338 个样本
下载大小：25566918 字节
数据集大小：24732178 字节

配置名称：NLI_with_context

特征：
- dialogue: 字符串序列
- speaker: 字符串序列
- human answer: 字符串
分割：
- train: 2977929 字节，2551 个样本
下载大小：3042193 字节
数据集大小：2977929 字节

配置名称：NLI_without_context

特征：
- text: 字符串
- hypothesis: 字符串
分割：
- train: 1095335 字节，2551 个样本
下载大小：1146864 字节
数据集大小：1095335 字节

配置名称：PIR_first

特征：
- text: 字符串序列
- speaker: 字符串序列
- correct_turn_number: 整数序列
分割：
- train: 3442927 字节，3341 个样本
- validation: 161433 字节，168 个样本
- test: 687605 字节，668 个样本
下载大小：4366468 字节
数据集大小：4291965 字节

配置名称：PIR_second

特征：
- text: 字符串序列
- speaker: 字符串序列
- correct_turn_number: 整数
- label: 整数
- choice: 字符串序列
分割：
- train: 9263111 字节，5188 个样本
- validation: 399924 字节，244 个样本
- test: 1890798 字节，1062 个样本
下载大小：11740508 字节
数据集大小：11553833 字节

数据集详情

语言：英语
许可证：CC BY-NC-SA 4.0
数据集大小：4,177 个样本
词汇量：48,900 个单词
人工标注答案数量：6,494 个
人工标注答案词汇量：20,000 个单词
涵盖的推理类型：5 种

数据集结构

PIR_first: 实用识别与推理子任务1
PIR_second: 实用识别与推理子任务2
CQA: 对话问答
NLI_with_context: 零样本NLI（带上下文）
NLI_without_context: 零样本NLI（无上下文）

数据集创建

源数据

来源：INTERVIEW 数据集（由 Majumder 等人收集）

标注过程

步骤I：自动选择

使用算法和模型进行初步筛选

步骤II：细粒度标注

利用 Amazon Mechanical Turk 进行详细标注
标注者需选择所有字面意义与意图意义不符的对话轮次，并提供置信度和理由

步骤III：人工精炼

将先前收集的人工标注理由转化为选择题
引入干扰选项以减少粗心标注者的影响

引用

@inproceedings{li2023diplomat, title={DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning}, author={Hengli Li and Song-Chun Zhu and Zilong Zheng}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023} }

数据集卡片联系

邮箱：lihengli@stu.pku.edu.cn

搜集汇总

数据集介绍

构建方式

在对话理解领域，DiPlomat数据集通过多阶段流程构建而成。该数据集以INTERVIEW对话语料库为原始来源，首先采用自动化算法对海量数据进行初步筛选，以降低冗余并聚焦潜在语用现象。随后，通过亚马逊众包平台进行细粒度标注，要求标注者识别对话中字面意义与隐含意图存在分歧的语句，并同步记录置信度及推理依据。最终阶段引入人工精炼机制，将前期标注的推理依据转化为多项选择题形式，并嵌入干扰选项以提升数据质量，确保标注结果的可靠性与一致性。

特点

DiPlomat数据集在语用推理研究领域展现出显著特色。其核心在于提供了一个统一的框架，涵盖隐喻、讽刺等多种非字面表达形式，而非将其视为孤立任务。数据集包含4,177条对话实例，词汇量达48,900，并附有6,494条人工标注的答案，覆盖五种推理类型。结构上，它细分为语用识别与推理（PIR）、会话问答（CQA）及零样本自然语言推理（NLI）等多个子任务配置，支持对机器语用理解能力的多层次评估。

使用方法

该数据集适用于训练与评估机器在会话场景下的语用推理能力。研究者可通过加载不同配置（如PIR_first、CQA等）分别访问特定子任务数据，其中训练、验证与测试分割已预先划分。使用时应保持PIR子任务测试数据的原始顺序，以确保评估一致性。数据集以标准文本序列及分类标签格式组织，可直接用于微调预训练模型或作为基准测试平台，推动对话系统在隐含意义理解方面的进展。

背景与挑战

背景概述

在自然语言处理领域，语用推理作为理解对话中隐含意义的关键能力，对于构建具备真实交际能力的智能体至关重要。DiPlomat数据集由北京大学等机构的研究人员于2023年创建，旨在系统评估机器在情境化对话中的语用推理能力。该数据集以访谈对话为源，通过精细的人工标注构建，涵盖了隐喻、讽刺等多种非字面表达形式，为语用理解研究提供了统一的评估框架，推动了对话系统向更深层次语义理解的发展。

当前挑战

DiPlomat数据集致力于解决对话中语用推理的复杂挑战，其核心问题在于如何准确识别并解释对话者话语背后的真实意图，这涉及对语境、社会规范和言外之意的深度理解。在构建过程中，研究者面临标注主观性带来的困难，因为语用现象的解释往往因人而异，需通过多轮人工精炼和置信度评分来确保数据质量。此外，从海量原始对话中自动筛选出富含语用现象的样本，并设计兼顾多样性与一致性的推理任务，也是数据集构建中的关键难点。

常用场景

经典使用场景

在自然语言处理领域，对话理解常面临隐含意义解析的挑战。DiPlomat数据集通过提供包含隐喻、讽刺等修辞手法的对话语料，成为评估机器语用推理能力的经典基准。其核心任务Pragmatic Identification and Reasoning（PIR）要求模型识别对话中字面与意图不符的语句，并推断说话者的真实含义，这为研究对话的深层语义理解提供了结构化测试平台。

实际应用

在实际应用中，DiPlomat支撑的语用推理技术可显著增强智能客服、虚拟助手等对话系统的自然度与适应性。例如，在客户服务场景中，系统通过识别用户讽刺或委婉表达的不满情绪，能更精准地理解诉求并生成得体回应。该数据集亦可用于教育领域，辅助开发语言理解培训工具，提升跨文化交际能力。

衍生相关工作

基于DiPlomat的语用推理框架，学术界已衍生出多项经典研究。例如，有工作探索多任务学习模型在PIR与CQA任务上的协同优化；另有研究利用其零样本NLI配置开发上下文敏感的推理架构。这些工作普遍借鉴了数据集中的人机协作标注范式，推动了对话理解评估方法学的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集