MultiWOZ 2.2
收藏arXiv2020-07-11 更新2024-06-21 收录
下载链接:
https://github.com/budzianowski/multiwoz
下载链接
链接失效反馈官方服务:
资源简介:
MultiWOZ 2.2是由谷歌研究院和伊利诺伊大学芝加哥分校创建的一个任务导向型对话数据集,包含超过10000条跨8个领域的标注对话。该数据集通过多次迭代更新,旨在减少对话状态标注的错误和不一致性,提高数据质量。数据集创建过程中,通过重新定义本体和引入槽位跨度标注,标准化了数据集,使其更适用于对话状态跟踪模型的训练和评估。MultiWOZ 2.2主要应用于对话系统研究,特别是对话状态跟踪领域,以解决现有数据集中的标注错误和模型泛化问题。
MultiWOZ 2.2 is a task-oriented dialogue dataset created by Google Research and the University of Illinois Chicago, which contains over 10,000 annotated dialogues spanning 8 domains. This dataset has undergone multiple iterative updates to reduce errors and inconsistencies in dialogue state annotations and improve data quality. During its creation, the dataset was standardized by redefining the ontology and introducing slot span annotations, making it more suitable for the training and evaluation of dialogue state tracking models. MultiWOZ 2.2 is primarily applied in dialogue system research, especially in the field of dialogue state tracking, to address the annotation errors and model generalization issues existing in prior datasets.
提供机构:
谷歌研究院
创建时间:
2020-07-11
搜集汇总
数据集介绍

构建方式
在任务导向对话系统研究领域,MultiWOZ 2.2数据集的构建基于其前身MultiWOZ 2.1的改进。该数据集采用Wizard-of-Oz范式进行原始对话收集,两名众包工作者分别扮演用户和对话代理,依据预设的用户目标进行自然对话。构建过程中,研究者对对话状态标注进行了系统性修正,覆盖了17.3%的话语,解决了包括幻觉值、不一致状态更新在内的标注错误。此外,数据集重新定义了本体论,将槽位划分为分类与非分类两类,并为非分类槽位添加了跨度标注,确保标注的一致性与标准化。
特点
MultiWOZ 2.2数据集的特点体现在其高质量的标注与丰富的结构信息。作为多领域任务导向对话的基准,它涵盖餐厅、酒店、景点等八个领域,包含超过一万个对话。数据集引入了槽位分类与非分类的明确划分,分类槽位具有预定义值列表,非分类槽位则依赖对话历史进行值提取。新增的槽位跨度标注、活跃用户意图及请求槽位标注,为模型训练提供了更细致的语义表示。这些特性显著提升了数据集的准确性与实用性,支持更公平的模型比较与更高效的状态跟踪研究。
使用方法
MultiWOZ 2.2数据集主要用于任务导向对话系统的状态跟踪模型训练与评估。研究者可依据其划分的训练、开发与测试集,进行模型的开发与验证。数据集支持分类与非分类槽位的联合预测,鼓励采用混合方法,如基于跨度的提取与基于候选的分类。使用时应遵循数据集提供的模式定义,利用槽位跨度标注优化值提取,参考活跃意图与请求槽位标注增强对话策略建模。基准测试表明,该数据集适用于TRADE、DS-DST等先进模型,促进多领域对话状态跟踪技术的创新与比较。
背景与挑战
背景概述
MultiWOZ 2.2数据集作为任务导向对话系统领域的重要基准,由Google Research与伊利诺伊大学芝加哥分校的研究团队于2020年联合发布。该数据集基于早期MultiWOZ版本,针对对话状态标注中的噪声问题进行了系统性修正与增强。其核心研究聚焦于提升多领域对话状态跟踪的准确性与一致性,涵盖餐厅、酒店、出租车等八个领域,包含超过一万条标注对话。MultiWOZ系列的演进显著推动了对话理解技术的发展,为学术界提供了高质量的评估标准,促进了基于数据驱动的对话系统模块的优化与创新。
当前挑战
MultiWOZ 2.2致力于解决多领域对话状态跟踪中的标注一致性与泛化性挑战。具体而言,数据构建过程中面临标注噪声的难题,包括早期标注中的幻觉值、拼写错误及隐式时间处理等错误,这些噪声源于Wizard-of-Oz收集方法对人工标注的高度依赖。此外,数据集的构建需处理本体论不一致问题,例如槽位值重复、逻辑表达式噪声以及非分类槽位的大规模动态值集管理。这些挑战要求设计精细的修正流程与标准化模式定义,以确保对话状态跟踪模型能够在真实场景中实现可靠预测与公平评估。
常用场景
经典使用场景
在任务导向对话系统的研究领域,MultiWOZ 2.2数据集作为一项经过精细标注的基准资源,其最经典的使用场景在于对话状态跟踪模型的训练与评估。该数据集涵盖了餐厅、酒店、出租车等八个领域的对话,通过提供大规模、多轮次的真实对话记录,使研究者能够构建和测试能够准确理解用户意图、动态更新对话状态的算法模型。其丰富的领域覆盖和细致的状态标注为模型在多任务环境下的泛化能力提供了关键支撑。
实际应用
在实际应用层面,MultiWOZ 2.2为开发智能客服、虚拟助手等任务导向对话系统提供了关键训练数据。基于该数据集训练的模型能够有效处理用户在多领域场景下的复杂查询,例如同时预订餐厅与出租车,或查询景点信息并安排行程。其标注的活跃意图与请求槽位信息可直接用于优化对话策略模块,提升系统在真实交互中的响应准确性与效率,从而增强用户体验并降低人工服务成本。
衍生相关工作
围绕MultiWOZ 2.2数据集,学术界衍生了一系列经典研究工作,例如TRADE、SGD-baseline和DS-DST等先进对话状态跟踪模型。这些模型结合了基于跨度的提取方法与基于候选列表的分类策略,以应对分类与非分类槽位的不同特性。此外,该数据集的标注框架也启发了后续对话数据集(如Schema-Guided Dialogue)的设计,推动了任务导向对话系统向更标准化、可扩展的方向演进。
以上内容由遇见数据集搜集并总结生成



