MultiWOZ 2.1

Name: MultiWOZ 2.1
Creator: 亚马逊和谷歌
Published: 2019-12-04 06:41:37
License: 暂无描述

arXiv2019-12-04 更新2024-06-21 收录

下载链接：

https://github.com/budzianowski/multiwoz/tree/master/data

下载链接

链接失效反馈

官方服务：

资源简介：

MultiWOZ 2.1是由亚马逊和谷歌合作创建的多领域对话数据集，包含超过10,000个对话，涵盖7个不同的任务导向领域，如酒店、出租车和餐厅预订等。该数据集通过众包工作者重新注释对话状态和语句，修正了约32%的状态注释和146个对话语句，以提高数据质量。MultiWOZ 2.1旨在为多领域对话状态跟踪提供高质量资源，支持模型在处理复杂对话场景时的性能提升。

MultiWOZ 2.1 is a multi-domain dialogue dataset co-created by Amazon and Google. It contains over 10,000 dialogues covering 7 distinct task-oriented domains such as hotel booking, taxi reservation, restaurant booking and more. This dataset had its dialogue states and utterances re-annotated by crowdworkers, correcting approximately 32% of state annotations and 146 dialogue utterances to improve data quality. MultiWOZ 2.1 aims to provide high-quality resources for multi-domain dialogue state tracking, supporting performance improvements of models when dealing with complex dialogue scenarios.

提供机构：

亚马逊和谷歌

创建时间：

2019-07-03

搜集汇总

数据集介绍

构建方式

在任务导向对话系统领域，MultiWOZ 2.1数据集通过系统性的修正流程构建而成。该数据集基于MultiWOZ 2.0，针对其对话状态标注中的噪声问题，采用众包工作者对原始对话状态和话语进行了逐轮的人工重新标注。修正过程涵盖了延迟标注、多重标注、错误标注、拼写错误及遗漏值等常见错误类型，并对槽值进行了规范化处理，确保与底层数据库本体的一致性。此外，通过自动化脚本检测并修正了话语中的拼写错误，使得超过32%的状态标注在40%的对话轮次中得到了更新，共计修正了146处话语表述。

特点

MultiWOZ 2.1数据集在对话状态跟踪研究中展现出显著特点。其核心优势在于标注质量的显著提升，通过细致的修正减少了标注噪声，为模型评估提供了更可靠的基准。数据集覆盖酒店、出租车、餐厅等7个不同领域，支持多领域交互及槽值跨领域转移，体现了真实对话的复杂性。此外，该数据集整合了用户对话行为标注及每个状态槽的多个自然语言描述，增强了其在低资源与零样本自然语言理解任务中的适用性。这些特点使得MultiWOZ 2.1成为推动对话状态跟踪及多领域对话系统研究的重要资源。

使用方法

MultiWOZ 2.1数据集适用于多领域对话状态跟踪模型的训练与评估。研究人员可利用其提供的对话历史、系统与用户话语、对话状态标注及对话行为信息，构建和测试固定词汇或开放词汇的对话状态跟踪模型。数据集已划分为训练、验证和测试集，支持联合状态准确率等指标的量化评估。此外，其包含的槽描述信息可用于探索零样本或小样本学习场景，帮助模型泛化到新领域。通过使用该数据集，研究者能够更准确地分析模型性能，推动对话系统在理解用户模糊表达及处理专有名词等方面的进步。

背景与挑战

背景概述

MultiWOZ 2.1数据集于2019年12月由亚马逊与谷歌等机构的研究团队联合发布，作为MultiWOZ 2.0的改进版本，旨在解决多领域任务导向对话系统中的对话状态跟踪问题。该数据集覆盖酒店、出租车、餐厅等七个领域，包含超过一万个对话，其核心研究在于通过精细化标注修正与数据整合，提升对话状态跟踪模型的训练质量与评估可靠性。MultiWOZ系列已成为多领域对话研究的重要基准，推动了对话系统在复杂交互场景下的技术进步。

当前挑战

MultiWOZ 2.1致力于应对多领域对话状态跟踪中的两大挑战：其一，在领域问题层面，模型需准确解析用户跨领域的动态意图与槽位值，处理诸如‘dontcare’或‘none’等模糊表达，这对模型的语义理解与泛化能力构成严峻考验；其二，在构建过程中，原始数据存在标注延迟、拼写错误、槽位误标等噪声，团队通过众包重新标注与自动化规范化，修正了超过32%的状态标注与146条对话语句，确保了数据的一致性与准确性。

常用场景

经典使用场景

在任务导向对话系统研究中，MultiWOZ 2.1数据集作为多领域对话状态跟踪的核心基准，被广泛用于评估模型在复杂跨领域场景下的语义理解能力。其经典使用场景体现在对酒店、餐厅、出租车等七个领域的联合对话状态进行精准预测，研究者通过该数据集训练模型从多轮对话历史中提取用户意图与槽位值，为对话管理模块提供可靠的语义表示。该场景充分展现了数据集在模拟真实人机交互中的多层次语义复杂性。

实际应用

在实际应用层面，基于MultiWOZ 2.1训练的对话状态跟踪模型已广泛应用于智能客服、跨领域旅行助手等商业系统。其多领域交互特性支持用户在一次对话中完成酒店预订、餐厅推荐、交通安排等连续任务，显著提升了对话系统的服务连贯性与用户体验。数据集中对用户模糊表达（如'dontcare'标签）的精细化标注，更助力开发出能有效处理现实场景中不确定性需求的鲁棒性对话引擎。

衍生相关工作

该数据集催生了众多经典研究工作，包括基于生成式架构的TRADE模型、将状态跟踪重构为阅读理解任务的DST Reader模型，以及融合固定词典与开放词汇机制的HyST混合模型。这些工作不仅推动了对话状态跟踪技术从基于规则到深度学习的范式转变，更衍生出ConvLab等多领域端到端对话系统开发平台。后续研究进一步利用其槽位描述数据探索了基于语义嵌入的零样本跨领域迁移方法，形成了完整的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集