DailyDialog

Name: DailyDialog
Creator: 香港理工大学计算机系与中国科学院软件研究所
Published: 2017-10-11 16:30:30
License: 暂无描述

arXiv2017-10-11 更新2024-06-21 收录

下载链接：

http://yanran.li/dailydialog

下载链接

链接失效反馈

官方服务：

资源简介：

DailyDialog是一个高质量的多轮对话数据集，由香港理工大学计算机系与中国科学院软件研究所合作创建。该数据集包含13,118条日常生活中的对话，覆盖广泛的话题，如假期、旅游、购物等。数据集的创建过程包括从多个网站爬取原始数据，并进行去重、过滤和自动纠错处理。DailyDialog数据集特别标注了沟通意图和情感信息，旨在帮助研究对话系统，提高其理解和生成连贯、有意义回复的能力。

DailyDialog is a high-quality multi-turn dialogue dataset co-developed by the Department of Computer Science of The Hong Kong Polytechnic University and the Institute of Software, Chinese Academy of Sciences. This dataset contains 13,118 daily conversations covering a wide range of topics such as holidays, travel, shopping and more. The dataset's creation process involves crawling raw data from multiple websites, followed by deduplication, filtering and automatic error correction. Notably, the DailyDialog dataset is explicitly annotated with communication intentions and emotional information, aiming to support research on dialogue systems and improve their capacity to understand and generate coherent, meaningful responses.

提供机构：

香港理工大学计算机系与中国科学院软件研究所

创建时间：

2017-10-11

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，高质量的多轮对话数据对于模型训练至关重要。DailyDialog数据集的构建过程体现了严谨的学术规范，其原始数据来源于多个为英语学习者设计的日常对话练习网站，确保了语言的自然性与真实性。通过数据去重、过滤多说话者对话以及自动拼写校正等步骤，最终形成了包含13,118个多轮对话的纯净语料库。每个对话平均包含约8轮发言，每轮发言的平均词数为15个，这种紧凑的结构有助于训练高效的对话模型。

特点

DailyDialog数据集在多个维度上展现出独特价值。其对话内容覆盖日常生活十大主题，如人际关系、普通生活与工作等，广泛反映了真实交流场景。数据集经过精细的人工标注，包含对话行为与情感两类标签：对话行为分为告知、提问、指令与承诺四类；情感则依据Ekman的“基本六情绪”理论扩展为七种类别。这些标注不仅揭示了对话中信息交换与社会联结的双重目的，还捕捉了人类对话中常见的双向流转模式与特定多轮交流结构，为深入研究对话管理与情感计算提供了丰富资源。

使用方法

该数据集适用于对话系统的多种研究方法。在基于检索的模型中，可利用其标注信息进行意图与情感的重排序，以提升回复的相关性与情感一致性。在基于生成的模型中，Seq2Seq、注意力机制及层次化编码器-解码器等架构均可在此数据集上训练，并可融入意图与情感标签以增强生成质量。研究显示，直接使用DailyDialog进行训练比在领域差异较大的大型语料库上进行预训练更为有效。数据集已按比例划分为训练、验证与测试集，便于模型评估与比较。

背景与挑战

背景概述

在自然语言处理领域，构建高质量的对话系统一直是学术界与工业界共同关注的核心议题。DailyDialog数据集由香港理工大学与中国科学院软件研究所的研究团队于2017年联合创建，旨在解决开放域多轮对话建模中训练数据稀缺且质量参差不齐的问题。该数据集聚焦于日常生活中的对话场景，涵盖了人际关系、日常生活、工作等十大主题，通过人工标注的方式为每轮对话添加了通信意图与情感标签。DailyDialog以其语言规范、话题集中、对话轮次合理的特点，显著提升了对话生成与理解模型的训练效果，对推动开放域对话系统的研究具有重要影响力。

当前挑战

DailyDialog数据集面临的挑战主要体现在两个方面：其一，在解决开放域对话生成这一领域问题时，模型需克服对话连贯性、上下文依赖以及情感一致性等复杂问题，而现有评估指标如BLEU分数难以全面衡量生成对话的质量；其二，在数据集构建过程中，研究团队需应对原始数据噪声过滤、多轮对话结构保持以及人工标注一致性等难题，例如在情感标注时需平衡‘大六情绪理论’的普适性与日常对话中情感表达的多样性，以确保标注结果的准确性与实用性。

常用场景

经典使用场景

在开放域对话系统研究中，DailyDialog数据集因其高质量、多轮次和贴近日常生活的特性，成为评估和训练生成式与检索式对话模型的经典基准。该数据集涵盖了人际关系、日常生活和工作等十大主题，其对话流遵循自然的双向交互模式，如问题-信息传递和指令-承诺等结构，为模型学习人类沟通的连贯性与上下文依赖性提供了丰富素材。研究者常利用该数据集测试模型在多轮对话中的语义理解、情感响应和话题延续能力，推动对话系统向更自然、人性化的方向发展。

衍生相关工作

DailyDialog数据集催生了一系列经典研究工作，尤其在情感对话生成和上下文感知模型领域影响深远。例如，Zhou等人基于该数据集开发了情感聊天机器人生成模型，探索了内部与外部记忆机制在情感响应中的应用；同时，该数据集常被用作评估层次化编码器-解码器模型（如HRED）和注意力增强序列到序列模型的基准，推动了多轮对话生成技术的演进。此外，许多研究利用其意图和情感标注进行响应重排序或领域自适应，进一步拓展了对话系统在个性化与多模态交互方面的研究边界。

数据集最近研究