henry12348/DiPlomat
收藏Hugging Face2023-11-13 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/henry12348/DiPlomat
下载链接
链接失效反馈官方服务:
资源简介:
DiPlomat数据集旨在评估机器在实用推理和情境对话理解方面的能力,提供了一个统一的框架来理解一般实用推理。数据集包含4,177条数据,覆盖48,900个词汇,并包含6,494个人工标注的答案,涵盖5种推理类型。数据集包含两个主要任务:实用识别和推理(PIR)以及对话问答(CQA),并提供了用于零样本NLI的数据。数据集的创建过程包括自动选择、细粒度标注和人工精炼三个步骤。
The DiPlomat dataset is designed to evaluate machines' capabilities in practical reasoning and situated dialogue understanding, and provides a unified framework for comprehending general practical reasoning. The dataset consists of 4,177 instances, encompasses a total of 48,900 vocabulary tokens, and includes 6,494 manually annotated answers covering 5 types of reasoning. It features two primary tasks: Practical Recognition and Inference (PIR) and Conversational Question Answering (CQA), and also provides data for zero-shot natural language inference (NLI). The construction of the dataset involves three steps: automatic selection, fine-grained annotation, and human refinement.
提供机构:
henry12348
原始信息汇总
DiPlomat 数据集概述
数据集信息
配置名称:CQA
- 特征:
text: 字符串序列speaker: 字符串序列gold_statement: 字符串questions: 字符串answer: 字符串
- 分割:
train: 19805284 字节,15585 个样本validation: 1959148 字节,1559 个样本test: 2967746 字节,2338 个样本
- 下载大小:25566918 字节
- 数据集大小:24732178 字节
配置名称:NLI_with_context
- 特征:
dialogue: 字符串序列speaker: 字符串序列human answer: 字符串
- 分割:
train: 2977929 字节,2551 个样本
- 下载大小:3042193 字节
- 数据集大小:2977929 字节
配置名称:NLI_without_context
- 特征:
text: 字符串hypothesis: 字符串
- 分割:
train: 1095335 字节,2551 个样本
- 下载大小:1146864 字节
- 数据集大小:1095335 字节
配置名称:PIR_first
- 特征:
text: 字符串序列speaker: 字符串序列correct_turn_number: 整数序列
- 分割:
train: 3442927 字节,3341 个样本validation: 161433 字节,168 个样本test: 687605 字节,668 个样本
- 下载大小:4366468 字节
- 数据集大小:4291965 字节
配置名称:PIR_second
- 特征:
text: 字符串序列speaker: 字符串序列correct_turn_number: 整数label: 整数choice: 字符串序列
- 分割:
train: 9263111 字节,5188 个样本validation: 399924 字节,244 个样本test: 1890798 字节,1062 个样本
- 下载大小:11740508 字节
- 数据集大小:11553833 字节
数据集详情
- 语言:英语
- 许可证:CC BY-NC-SA 4.0
- 数据集大小:4,177 个样本
- 词汇量:48,900 个单词
- 人工标注答案数量:6,494 个
- 人工标注答案词汇量:20,000 个单词
- 涵盖的推理类型:5 种
数据集结构
- PIR_first: 实用识别与推理子任务1
- PIR_second: 实用识别与推理子任务2
- CQA: 对话问答
- NLI_with_context: 零样本NLI(带上下文)
- NLI_without_context: 零样本NLI(无上下文)
数据集创建
源数据
- 来源:INTERVIEW 数据集(由 Majumder 等人收集)
标注过程
步骤I:自动选择
- 使用算法和模型进行初步筛选
步骤II:细粒度标注
- 利用 Amazon Mechanical Turk 进行详细标注
- 标注者需选择所有字面意义与意图意义不符的对话轮次,并提供置信度和理由
步骤III:人工精炼
- 将先前收集的人工标注理由转化为选择题
- 引入干扰选项以减少粗心标注者的影响
引用
@inproceedings{li2023diplomat, title={DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning}, author={Hengli Li and Song-Chun Zhu and Zilong Zheng}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023} }
数据集卡片联系
- 邮箱:lihengli@stu.pku.edu.cn
搜集汇总
数据集介绍

构建方式
在对话理解领域,DiPlomat数据集通过多阶段流程构建而成。该数据集以INTERVIEW对话语料库为原始来源,首先采用自动化算法对海量数据进行初步筛选,以降低冗余并聚焦潜在语用现象。随后,通过亚马逊众包平台进行细粒度标注,要求标注者识别对话中字面意义与隐含意图存在分歧的语句,并同步记录置信度及推理依据。最终阶段引入人工精炼机制,将前期标注的推理依据转化为多项选择题形式,并嵌入干扰选项以提升数据质量,确保标注结果的可靠性与一致性。
特点
DiPlomat数据集在语用推理研究领域展现出显著特色。其核心在于提供了一个统一的框架,涵盖隐喻、讽刺等多种非字面表达形式,而非将其视为孤立任务。数据集包含4,177条对话实例,词汇量达48,900,并附有6,494条人工标注的答案,覆盖五种推理类型。结构上,它细分为语用识别与推理(PIR)、会话问答(CQA)及零样本自然语言推理(NLI)等多个子任务配置,支持对机器语用理解能力的多层次评估。
使用方法
该数据集适用于训练与评估机器在会话场景下的语用推理能力。研究者可通过加载不同配置(如PIR_first、CQA等)分别访问特定子任务数据,其中训练、验证与测试分割已预先划分。使用时应保持PIR子任务测试数据的原始顺序,以确保评估一致性。数据集以标准文本序列及分类标签格式组织,可直接用于微调预训练模型或作为基准测试平台,推动对话系统在隐含意义理解方面的进展。
背景与挑战
背景概述
在自然语言处理领域,语用推理作为理解对话中隐含意义的关键能力,对于构建具备真实交际能力的智能体至关重要。DiPlomat数据集由北京大学等机构的研究人员于2023年创建,旨在系统评估机器在情境化对话中的语用推理能力。该数据集以访谈对话为源,通过精细的人工标注构建,涵盖了隐喻、讽刺等多种非字面表达形式,为语用理解研究提供了统一的评估框架,推动了对话系统向更深层次语义理解的发展。
当前挑战
DiPlomat数据集致力于解决对话中语用推理的复杂挑战,其核心问题在于如何准确识别并解释对话者话语背后的真实意图,这涉及对语境、社会规范和言外之意的深度理解。在构建过程中,研究者面临标注主观性带来的困难,因为语用现象的解释往往因人而异,需通过多轮人工精炼和置信度评分来确保数据质量。此外,从海量原始对话中自动筛选出富含语用现象的样本,并设计兼顾多样性与一致性的推理任务,也是数据集构建中的关键难点。
常用场景
经典使用场景
在自然语言处理领域,对话理解常面临隐含意义解析的挑战。DiPlomat数据集通过提供包含隐喻、讽刺等修辞手法的对话语料,成为评估机器语用推理能力的经典基准。其核心任务Pragmatic Identification and Reasoning(PIR)要求模型识别对话中字面与意图不符的语句,并推断说话者的真实含义,这为研究对话的深层语义理解提供了结构化测试平台。
实际应用
在实际应用中,DiPlomat支撑的语用推理技术可显著增强智能客服、虚拟助手等对话系统的自然度与适应性。例如,在客户服务场景中,系统通过识别用户讽刺或委婉表达的不满情绪,能更精准地理解诉求并生成得体回应。该数据集亦可用于教育领域,辅助开发语言理解培训工具,提升跨文化交际能力。
衍生相关工作
基于DiPlomat的语用推理框架,学术界已衍生出多项经典研究。例如,有工作探索多任务学习模型在PIR与CQA任务上的协同优化;另有研究利用其零样本NLI配置开发上下文敏感的推理架构。这些工作普遍借鉴了数据集中的人机协作标注范式,推动了对话理解评估方法学的创新。
以上内容由遇见数据集搜集并总结生成



