pfb30/multi_woz_v22
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/pfb30/multi_woz_v22
下载链接
链接失效反馈官方服务:
资源简介:
Multi-Domain Wizard-of-Oz数据集(MultiWOZ)是一个完全标注的人与人之间书面对话的集合,涵盖了多个领域和主题。MultiWOZ 2.1版本修复了原始版本中的许多错误注释和用户话语,而MultiWOZ 2.2版本在此基础上进一步修复了对话状态注释错误,并重新定义了词汇表,引入了标准化的槽位跨度注释。该数据集支持生成对话建模、意图状态跟踪和对话行为预测等任务。数据集的结构包括对话ID、服务列表、对话轮次、对话行为、用户意图和状态等信息。数据集被分为训练集、验证集和测试集,分别包含8437、1000和1000个对话实例。
Multi-Domain Wizard-of-Oz数据集(MultiWOZ)是一个完全标注的人与人之间书面对话的集合,涵盖了多个领域和主题。MultiWOZ 2.1版本修复了原始版本中的许多错误注释和用户话语,而MultiWOZ 2.2版本在此基础上进一步修复了对话状态注释错误,并重新定义了词汇表,引入了标准化的槽位跨度注释。该数据集支持生成对话建模、意图状态跟踪和对话行为预测等任务。数据集的结构包括对话ID、服务列表、对话轮次、对话行为、用户意图和状态等信息。数据集被分为训练集、验证集和测试集,分别包含8437、1000和1000个对话实例。
提供机构:
pfb30
原始信息汇总
数据集概述
名称: Multi-domain Wizard-of-Oz (MultiWOZ)
版本: v2.2
语言: 英语 (en)
许可证: Apache-2.0
多语言性: 单语种
大小: 10K<n<100K
源数据: 原始数据
任务类别:
- 文本生成 (
text-generation) - 填充掩码 (
fill-mask) - 令牌分类 (
token-classification) - 文本分类 (
text-classification)
具体任务:
- 对话建模 (
dialogue-modeling) - 多类分类 (
multi-class-classification) - 解析 (
parsing)
数据集信息:
- 配置名称: v2.2
- 特征:
dialogue_id: 对话唯一ID,数据类型为字符串。services: 对话中提到的服务列表,数据类型为字符串序列。turns: 对话轮次序列,包含以下子特征:turn_id: 轮次唯一ID,数据类型为字符串。speaker: 说话者标识,数据类型为分类标签(USER/SYSTEM)。utterance: 说话内容,数据类型为字符串。frames: 用户意图和信念状态,数据类型为结构化数据。dialogue_acts: 对话行为,数据类型为结构化数据。
- 数据分割:
train: 8437个示例,68222649字节。validation: 1000个示例,8990945字节。test: 1000个示例,9027095字节。
数据集大小: 86240689字节
下载大小: 276592909字节
数据集结构
数据实例: 完整的多个回合对话,每个回合包含一个说话内容及其注释。
数据字段:
dialogue_id: 对话唯一标识。services: 对话中涉及的服务列表。turns: 对话轮次,包含以下信息:turn_id: 轮次标识。speaker: 说话者(USER/SYSTEM)。utterance: 说话内容文本。frames: 用户意图和信念状态的结构化表示。dialogue_acts: 对话行为的结构化表示。
数据分割:
train: 8437个对话。validation: 1000个对话。test: 1000个对话。
搜集汇总
数据集介绍

构建方式
在任务导向对话系统研究领域,MultiWOZ v2.2数据集的构建体现了对数据质量与一致性的持续优化。该数据集源自早期版本,通过人机协作的方式生成对话内容,其中人类扮演用户与系统角色进行模拟交互,形成原始语料。构建过程中,研究团队对对话状态标注进行了系统性审查与修正,在MultiWOZ 2.1的基础上,针对17.3%的话语修正了状态标注错误,并重新定义了本体结构,对取值空间过大的槽位采用标准化跨度标注,同时引入了明确的槽位值复制关系标注机制,从而提升了标注的精确性与逻辑一致性。
特点
作为多领域任务导向对话的基准数据集,MultiWOZ v2.2的核心特征在于其丰富的结构化标注与多领域覆盖。数据集包含超过一万次对话轮次,涵盖旅游、酒店、餐厅、出租车等多个服务领域,真实模拟了跨领域的复杂对话场景。其标注体系尤为精细,每条用户话语均配有对话行为、语义框架及信念状态标注,其中对话行为解析了话语的交际意图,语义框架则明确了用户的目标服务与槽位状态,而信念状态追踪则完整记录了对话过程中的信息累积与更新。此外,数据集对非分类槽位提供了字符级的跨度标注,并对跨话轮引用的槽位建立了清晰的复制链标注,为深度理解对话动态提供了坚实基础。
使用方法
该数据集主要服务于对话系统的训练与评估,使用方法可根据不同研究任务进行适配。对于生成式对话建模,研究者可利用连续的对话轮次文本训练序列生成模型,评估时通常结合去词汇化的BLEU、信息提供率和请求成功率等指标。在对话状态追踪任务中,模型需要根据历史对话预测用户当前的信念状态,这是一个多分类问题,常使用F1分数衡量性能。而对于对话行为解析任务,模型需将自然语言话语映射为结构化的对话行为表示,同样可通过F1分数进行评估。数据集的官方划分提供了训练集、验证集和测试集,确保了实验的可复现性与公平比较。
背景与挑战
背景概述
在任务导向型对话系统的研究领域,多领域对话数据的匮乏长期制约着模型的泛化能力与实用性能。MultiWOZ数据集由剑桥大学对话系统研究组于2018年首次发布,旨在构建一个大规模、多领域的人机对话语料库,以支持对话状态跟踪、对话行为解析及生成式对话建模等核心任务。该数据集通过Wizard-of-Oz方法收集,涵盖了旅游、餐饮、交通等七个领域,其精细的语义标注体系为对话理解与生成提供了结构化基础。历经多次迭代,MultiWOZ 2.2版本进一步修正了标注错误并优化了本体定义,显著提升了数据质量,已成为评估对话系统性能的基准数据集之一,推动了对话人工智能技术的标准化发展。
当前挑战
MultiWOZ数据集致力于解决多领域任务导向对话中的复杂语义理解与状态跟踪挑战,其核心难点在于跨领域对话上下文的连贯性建模与动态信念状态的准确更新。数据构建过程中面临多重挑战:首先,多轮对话的标注需保持意图、槽位及对话行为的一致性,早期版本中存在大量标注噪声与逻辑矛盾,后续修正虽部分缓解了问题,但完全消除歧义仍具难度;其次,数据收集依赖于众包与机器生成相结合的方式,在确保对话自然度与领域多样性的同时,需平衡标注成本与质量,这导致部分对话的流畅性与真实性有待提升。此外,数据集中非分类槽位的跨度标注与值传递机制增加了标注复杂度,对模型的语义解析能力提出了更高要求。
常用场景
经典使用场景
在任务导向型对话系统研究中,MultiWOZ数据集作为多领域对话建模的基准工具,其经典应用场景集中于对话状态跟踪与生成式对话模型的训练与评估。该数据集通过涵盖酒店、餐厅、景点、出租车及医院等多个领域的自然语言对话,为研究者提供了丰富的跨领域交互语境。模型可依据用户意图与对话历史,预测当前对话状态并生成连贯的系统回复,进而推动端到端对话系统的性能优化。
实际应用
在实际应用层面,MultiWOZ数据集为智能客服、虚拟助手及跨领域任务规划系统提供了关键的训练与测试数据。基于该数据集训练的模型能够理解用户在多轮对话中的复杂需求,例如同时预订酒店与出租车,并准确提取时间、地点等关键信息。这种能力使得对话系统能够在旅游、医疗预约等现实场景中提供高效、个性化的服务,提升人机交互的自然度与实用性。
衍生相关工作
围绕MultiWOZ数据集,学术界衍生了一系列经典研究工作,例如基于Transformer的对话状态跟踪模型如SOM-DST,以及利用预训练语言模型进行对话生成的框架如SOLOIST。这些工作不仅推动了多领域对话状态跟踪的精度提升,还探索了零样本迁移与领域自适应等前沿方向。此外,数据集的持续迭代(如v2.1、v2.2)也催生了针对标注一致性与本体论优化的多项研究,形成了完整的任务导向对话技术生态。
以上内容由遇见数据集搜集并总结生成



