CMU Document Grounded Conversations (CMU DoG)

Name: CMU Document Grounded Conversations (CMU DoG)
Creator: 卡内基梅隆大学
Published: 2018-09-20 02:22:44
License: 暂无描述

arXiv2018-09-20 更新2024-06-21 收录

下载链接：

https://github.com/festvox/datasets-CMUDoG

下载链接

链接失效反馈

官方服务：

资源简介：

CMU Document Grounded Conversations（CMU DoG）数据集是由卡内基梅隆大学创建的，专注于基于特定文档内容的对话数据集。该数据集包含4112个对话，平均每个对话有21.43轮交流。数据集中的对话内容基于30部流行电影的维基百科文章，旨在通过对话模型生成与文档内容相关的自然语言响应。数据集的创建过程涉及通过亚马逊Mechanical Turk收集对话，并确保对话至少有12轮交流。该数据集主要用于研究对话系统的上下文理解和生成自然、流畅的响应，特别是在需要引用外部信息源的场景中。

CMU Document Grounded Conversations (CMU DoG) is a dialogue dataset developed by Carnegie Mellon University, focusing on conversations grounded in specific document content. This dataset contains 4112 dialogues, with an average of 21.43 conversational turns per dialogue. The dialogue content is based on Wikipedia articles of 30 popular movies, and its purpose is to enable dialogue models to generate natural language responses relevant to the document content. The dataset was constructed by collecting dialogues via Amazon Mechanical Turk, with the requirement that each dialogue should have at least 12 conversational turns. This dataset is primarily used for research on contextual understanding of dialogue systems and generating natural, fluent responses, especially in scenarios that require referencing external information sources.

提供机构：

卡内基梅隆大学

创建时间：

2018-09-20

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，构建具备文档基础的对话数据集对于推动智能体在信息交互与闲聊间自然切换至关重要。CMU DoG数据集的构建依托于亚马逊众包平台，精心设计了两种对话场景：其一为单方持有文档，旨在模拟信息传递与说服过程；另一方则扮演信息寻求者角色。其二为双方均持有文档，鼓励围绕文档内容展开深度讨论。文档选自30部涵盖多元类型的电影维基百科文章，每篇被划分为基础信息与三个关键场景段落，通过分段展示机制引导对话者逐层探讨，确保了对话内容与文档的高度关联性。

特点

该数据集的显著特征在于其对话与文档片段间的精确映射关系，为建模对话响应提供了结构化基础。数据集包含4112段对话，平均每段对话轮次达21.43，展现了丰富的交互深度。通过基于BLEU分数的自动质量评估，对话被划分为三个等级，反映了内容与文档的贴合程度。此外，数据集中对话者是否持有文档的设定差异，为研究信息不对称下的对话动态提供了独特视角，同时对话内容兼具任务导向与开放闲聊特性，填补了现有数据集中长程主题对话的空白。

使用方法

研究者在利用CMU DoG数据集时，可将其应用于文档基础对话生成模型的训练与评估。典型方法包括构建序列到序列模型，通过编码当前话语及对应文档片段以生成响应。数据集中对话与文档的层级关联支持多粒度建模，例如可仅基于历史话语生成回复，或融合文档信息以增强响应的事实性与连贯性。数据集的划分支持标准训练、验证与测试流程，其人工标注的对话质量评级可用于模型输出的自动评估，同时数据集中提供的对话示例与场景设定为设计针对性实验提供了可靠基准。

背景与挑战

背景概述

在对话系统研究领域，传统数据集往往局限于任务导向或开放域闲聊，缺乏将外部文档信息与自然对话深度融合的语料。为此，卡内基梅隆大学的研究团队于2018年推出了CMU文档接地对话数据集（CMU DoG），旨在探索基于文档的对话生成新范式。该数据集以维基百科电影文章为知识源，通过众包平台收集了4112段真实人类对话，平均每段对话包含21.43轮次。其核心研究问题聚焦于如何使对话系统在保持连贯性与语境敏感度的同时，有效利用结构化文档信息生成更具吸引力和流畅度的回应。这一创新性数据资源的建立，为文档接地对话建模提供了重要基准，推动了知识增强型对话系统的发展。

当前挑战

CMU DoG数据集所针对的文档接地对话任务面临多重挑战。在领域层面，模型需精准理解文档内容，并动态选择相关信息融入对话，同时维持对话的历史一致性与主题连贯性，避免生成偏离文档或语境断裂的回应。在数据集构建过程中，研究团队需设计有效的众包机制，确保参与者能基于文档展开深入讨论，而非简单复述文本；此外，还需开发自动评估指标（如基于BLEU的对话质量分级）以量化对话与文档的关联程度，并处理对话长度不均、信息密度差异等数据异质性问题。这些挑战共同构成了文档接地对话研究的关键难点。

常用场景

经典使用场景

在对话系统研究领域，CMU DoG数据集为文档驱动的对话建模提供了经典范例。该数据集通过构建基于维基百科电影文章的真实人类对话，使得模型能够在生成回应时有效利用外部文档信息。研究者通常利用该数据集训练生成式模型，如序列到序列架构，以探索如何将文档内容自然融入多轮对话，从而提升对话的连贯性和信息丰富度。

实际应用

在实际应用中，CMU DoG数据集为构建智能客服、教育辅助及娱乐推荐系统提供了重要支撑。例如，在电影推荐场景中，系统可依据该数据集训练模型，使其能够基于电影文档内容与用户进行自然交互，详细解答剧情、演员等信息，从而提升用户体验。这种文档驱动的对话模式同样适用于产品手册、新闻摘要等多类信息密集型领域。

衍生相关工作

该数据集衍生了一系列经典研究工作，尤其在文档增强的对话生成方向。例如，后续研究扩展了基于CMU DoG的神经架构，引入了更复杂的注意力机制与记忆网络，以更好地融合文档与对话历史。此外，该数据集也激发了跨模态对话系统的探索，如结合视觉文档的对话生成，进一步推动了人机交互技术在多模态信息处理中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集