DIALOGSUM

Name: DIALOGSUM
Creator: 浙江大学
Published: 2021-06-16 14:34:42
License: 暂无描述

arXiv2021-06-16 更新2024-06-21 收录

下载链接：

https://github.com/cylnlp/DialogSum

下载链接

链接失效反馈

官方服务：

资源简介：

DIALOGSUM是一个大规模的对话摘要数据集，由浙江大学、西湖大学、爱丁堡大学和吉林大学联合创建。该数据集包含13,460个日常生活中的多轮对话，涵盖教育、工作、医疗等多个领域。数据来源于多个公开对话语料库及英语学习网站，经过清洗和预处理，由标注者从观察者角度进行摘要。DIALOGSUM旨在解决对话摘要中的挑战，如口语表达、特殊话语结构、指代和省略等，适用于客户服务管理、医疗跟踪等实际场景，同时也为个人助手记录管理提供支持。

DIALOGSUM is a large-scale dialogue summarization dataset jointly created by Zhejiang University, Westlake University, University of Edinburgh and Jilin University. This dataset contains 13,460 multi-turn daily dialogues covering various domains such as education, work and healthcare. The data is sourced from multiple public dialogue corpora and English learning websites, and has been cleaned and preprocessed, with summaries generated by annotators from an observer's perspective. DIALOGSUM aims to tackle core challenges in dialogue summarization, including spoken expressions, unique discourse structures, anaphora and ellipsis. It is applicable to practical scenarios like customer service management and medical tracking, and also provides support for record management of personal assistants.

提供机构：

浙江大学

创建时间：

2021-05-14

搜集汇总

数据集介绍

构建方式

DIALOGSUM数据集的构建，首先从多个公共对话语料库中收集对话数据，包括DailyDialog、DREAM、MuTual以及一个英语口语练习网站。这些语料库包含了面对面口语对话，涵盖了广泛的日常生活话题，如学习、工作、医疗、购物、休闲、旅行等。对话数据经过清洗和预处理，统一格式后，由标注人员从观察者的角度进行摘要。每个对话的话题也由人工进行标注。最后，DIALOGSUM数据集包含了13,460个对话，分为训练集、验证集和测试集。

特点

DIALOGSUM数据集的特点在于其规模庞大、多样性丰富，且涵盖了日常生活中的多种场景。数据集的对话长度较长，平均长度为131个词，这为研究对话摘要提供了丰富的上下文信息。此外，DIALOGSUM数据集的摘要具有较高的抽象性，与现有的新闻摘要数据集相比，其摘要中的新颖n-gram比例更高。最后，DIALOGSUM数据集的对话结构复杂，涉及多轮对话中的话语关系，对摘要系统提出了更高的要求。

使用方法

DIALOGSUM数据集可用于训练和评估对话摘要模型，特别是抽象式摘要模型。数据集的对话和摘要均经过人工标注，具有较高的质量。用户可以使用该数据集进行模型训练、验证和测试，以评估模型的性能。此外，DIALOGSUM数据集还可以用于研究对话摘要的挑战和问题，如话语结构、指代消解、省略、语用和社会常识等。

背景与挑战

背景概述

文本摘要技术作为自动生成给定文档集的简洁、突出、连贯和流畅摘要的任务，近年来随着神经网络模型的进步和大规模标注数据集的可用性而取得了显著的进展。然而，对话作为一种实现交流意图的重要渠道，在摘要研究社区中却受到了较少的关注。这主要是因为缺乏一个基于对话文本的合适的摘要数据集。为此，陈宇龙等人于2021年提出了DIALOGSUM，这是一个大规模标注的对话摘要数据集。该数据集包含来自三个公开对话语料库（DailyDialog、DREAM和MuTual）以及一个英语口语练习网站的面对面口语对话数据，涵盖了包括学习、工作、医疗、购物、休闲、旅行在内的广泛日常生活话题。通过实验分析，DIALOGSUM展现了对话摘要的独特挑战，如口语术语、特殊的语篇结构、指代和省略、语用和社会常识等，这些挑战需要特定的表征学习技术来更好地处理。DIALOGSUM的发布对摘要研究社区产生了深远的影响，推动了对话摘要领域的研究进展。

当前挑战

DIALOGSUM数据集在对话摘要领域面临着一些独特的挑战。首先，与书面文本相比，口语对话的信息流不同，这在对话语篇结构中得到了直观的体现。例如，两个话语即使相隔很远，也可能密切相关。这种现象在谈判和程序（如医疗咨询和警察报告）等口语对话中很常见。其次，指代和省略在口语对话中频繁出现。省略是人类交流中的一种自然行为，作为修辞原则，人们遵循这一原则来节省词汇和避免重复。虽然这对人类来说可能微不足道，但其理解对神经网络模型来说是一个挑战。第三，语用和社会常识为口语语言理解和摘要带来了独特的挑战。例如，人类可以理解对话中“Here you are”实际上是指“make a payment”，而“Goodbye”则表示“check out”事件已经完成。这需要常识知识来充分理解这样的对话。此外，对话是从不同于说话者视角的角度进行摘要的，这意味着摘要对话不仅需要总结对话内容，还需要在语用层面总结对话行为。这些挑战对摘要模型提出了更高的要求，需要进一步研究以更好地表征对话语篇结构并提高摘要的可靠性。

常用场景

经典使用场景

DIALOGSUM数据集主要应用于对话摘要任务，旨在为机器学习模型提供一个大规模的对话数据集，以促进对话摘要研究。对话摘要任务的目标是自动生成对话的简洁、突出、连贯和流畅的摘要。DIALOGSUM数据集包含了从DailyDialog、DREAM、MuTual等公共对话语料库以及一个英语口语练习网站收集的对话数据，涵盖了广泛的日常生活话题，包括学习、工作、医疗、购物、休闲、旅行等。这些对话数据经过清洗和预处理后，被标注人员从观察者的角度进行摘要。DIALOGSUM数据集的规模和多样性使其成为对话摘要研究的重要资源。

衍生相关工作

DIALOGSUM数据集的发布促进了一系列相关研究的发展。研究人员利用DIALOGSUM数据集进行了对话摘要模型的评估和比较，发现DIALOGSUM数据集对抽象式摘要模型更具挑战性。此外，DIALOGSUM数据集的发布还促进了对话摘要模型的改进和发展，研究人员探索了更有效的对话摘要模型，以解决DIALOGSUM数据集中的挑战和困难。

数据集最近研究