Wired Explaining Dialogue Corpus

Name: Wired Explaining Dialogue Corpus
Creator: 帕德博恩大学计算机科学系
Published: 2022-09-06 22:00:22
License: 暂无描述

arXiv2022-09-06 更新2024-06-21 收录

下载链接：

https://github.com/webis-de/COLING-22

下载链接

链接失效反馈

官方服务：

资源简介：

Wired Explaining Dialogue Corpus是由帕德博恩大学计算机科学系创建的数据集，包含65个英语对话，来自Wired杂志的5 Levels视频系列。数据集涵盖13个科学相关主题，每个主题由一位专家向五位不同专业水平的解释对象解释。数据集中的所有1550个对话轮次均由五位独立专业人士手动标注，包括讨论的主题、对话行为和解释动作。该数据集旨在支持可解释人工智能（XAI）的研究，帮助AI学习如何在对话中与人类交互解释，以解决AI决策和行为的理解问题。

The Wired Explaining Dialogue Corpus is a dataset developed by the Department of Computer Science at the University of Paderborn. It consists of 65 English dialogues sourced from the 5 Levels video series of Wired magazine. The corpus covers 13 science-related topics, where each topic is explained by a single expert to five audience members with distinct levels of professional expertise. All 1,550 dialogue turns in this dataset were manually annotated by five independent professionals, covering the discussed topics, dialogue acts, and explanatory actions. This corpus is intended to support research in Explainable Artificial Intelligence (XAI), enabling AI systems to learn how to interactively explain concepts with humans during conversational interactions, thereby addressing the problem of human comprehension of AI decision-making and behavioral outputs.

提供机构：

帕德博恩大学计算机科学系

创建时间：

2022-09-06

搜集汇总

数据集介绍

构建方式

在对话式解释研究领域，Wired Explaining Dialogue Corpus 的构建采用了系统化方法。该数据集源自《Wired》杂志的“5 Levels”视频系列，其中专家针对13个科学主题与五类不同熟练程度的解释对象进行对话。研究团队将65段对话转录为文本，并手动划分为1550个对话轮次。为确保标注质量，五名独立专业人员对每个轮次进行了三重维度标注：话题与主话题的关系、对话行为及解释性动作。标注过程通过专业众包平台完成，并采用MACE技术整合多标注者结果，最终形成结构化语料库。

特点

该数据集的核心特点体现在其多层次标注结构与对话情境的多样性。语料库不仅涵盖区块链、机器学习等13个前沿科学主题，更通过专家与儿童、青少年、本科生、研究生及同行五类对象的对话，呈现解释策略随对象熟练度变化的动态特征。所有对话轮次均标注了话题关联性、10类对话行为与10类解释动作，揭示了解释者与解释对象在互动中的语言模式差异。例如，数据分析显示解释者更频繁使用信息陈述与知识测试，而解释对象则倾向反馈与理解确认，这种角色分化体现了对话解释的协作本质。

使用方法

该数据集为可解释人工智能与自然语言处理研究提供了实证基础。研究者可利用其多层次标注探索对话解释的序列模式，例如通过话题转移轨迹分析解释策略的适应性调整。在模型开发方面，数据集支持对话行为预测、解释动作生成等任务，已有基线实验表明序列建模能有效提升三类标注的预测性能。此外，跨熟练度对比分析有助于构建适应用户认知水平的解释系统，推动人机对话解释向更自然、个性化的方向发展。

背景与挑战

背景概述

在人工智能日益渗透日常生活的背景下，人类对理解其行为与决策的需求不断增长，可解释人工智能（XAI）研究应运而生。然而，传统XAI研究多基于单一理想解释的假设，忽视了现实世界中解释常通过对话双方共同构建的本质。为此，德国帕德博恩大学的Henning Wachsmuth与Milad Alshomary于2022年合作创建了Wired Explaining Dialogue Corpus，旨在为自然语言处理领域提供首个对话式解释语料库。该语料库源自《Wired》杂志的“5 Levels”视频系列，包含13个科学主题的65个对话，涉及从儿童到同事五种不同熟练程度的解释对象，共计1550个对话轮次，并人工标注了话题关联、对话行为与解释动作。这一资源不仅揭示了人类在对话中解释的互动模式，还为开发能够模仿人类解释过程的AI系统奠定了数据基础，推动了XAI向更人性化、交互式方向演进。

当前挑战

该数据集致力于解决对话式解释生成与理解这一核心领域问题，其挑战在于如何建模解释者与解释对象在动态互动中的复杂行为，例如根据对方熟练程度调整解释深度与内容。构建过程中的挑战包括：首先，数据采集受限于高质量对话资源的稀缺性，仅能依赖“5 Levels”系列视频，导致语料规模较小，可能影响统计分析的深度与模型训练的泛化能力；其次，标注体系需在缺乏现有对话解释理论的情况下创新设计，涉及话题关联、对话行为与解释动作的多维度标注，且通过众包方式完成，虽经MACE技术整合，但标注者间一致性仅为中等水平，为数据可靠性带来一定不确定性。这些挑战共同凸显了扩展数据规模与提升标注一致性的未来需求。

常用场景

经典使用场景

在可解释人工智能领域，Wired Explaining Dialogue Corpus 为研究对话式解释过程提供了关键数据基础。该数据集源自《Wired》杂志的“5 Levels”视频系列，包含专家向不同熟练程度听众解释科学话题的对话转录。其经典应用场景在于训练和评估自然语言处理模型，以模拟人类解释者在对话中的动态交互行为，例如预测对话主题、对话行为和解释动作，从而推动可解释AI系统向更人性化、交互式的方向发展。

实际应用

在实际应用中，Wired Explaining Dialogue Corpus 可用于开发智能教育助手、客户服务解释系统以及专业培训工具。例如，在教育领域，系统可依据学生的知识水平动态生成个性化解释，模仿专家在对话中的测试理解、提供反馈等行为。在医疗或法律咨询中，AI系统可借鉴数据集中对话模式，以更自然、互动的方式向用户解释复杂概念，提升信息传达的清晰度和用户理解度。

衍生相关工作

基于该数据集，研究者已开展多项经典工作，例如利用BERT序列模型预测对话主题、行为和动作，验证了建模序列交互对提升预测效果的重要性。这些工作推动了对话式解释生成模型的发展，如结合多任务学习框架联合优化多个解释维度。此外，数据集还激发了关于解释对齐、个性化适应等方向的研究，为构建更智能、可交互的可解释AI系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集