microsoft/meta_woz

Name: microsoft/meta_woz
Creator: microsoft
Published: 2024-01-18 11:08:54
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/meta_woz

下载链接

链接失效反馈

官方服务：

资源简介：

MetaLWOz数据集是一个用于快速适应对话模型的多领域对话数据集。该数据集包含37,884个由众包人员在Wizard of Oz设置下记录的对话，其中一个用户被指示像机器人一样行为，另一个则是真实用户。这些对话涵盖了47个领域，共227个任务，每个对话至少有10轮。数据集支持生成对话建模和填充掩码任务，主要用于训练任务导向的对话模型，特别是在少量数据下快速模拟用户响应。数据集的语言为英语，分为训练集和测试集。

The MetaLWOz dataset is a multi-domain dialogue dataset intended for rapid adaptation of dialogue models. It comprises 37,884 dialogues recorded by crowdworkers under the Wizard of Oz setting, where one participant was instructed to act as a robot while the other was a real user. These dialogues span 47 domains and encompass 227 tasks, with each dialogue containing at least 10 conversational turns. The dataset supports dialogue generation modeling and masked token filling tasks, and is primarily used for training task-oriented dialogue models, especially for rapidly simulating user responses with limited training data. The dataset is in English and is split into training and test sets.

提供机构：

microsoft

原始信息汇总

数据集卡片 for MetaLWOz

数据集描述

数据集摘要

MetaLWOz: 一个用于快速适应对话模型的多领域对话数据集。该数据集包含37,884个众包对话，涉及47个领域，共有227个任务。对话至少有10个回合。

支持的任务和排行榜

对话建模或dialogue-modeling：用于训练任务导向的对话模型，特别是开发快速模拟用户响应的方法。

语言

数据集中的文本为英语（en）。

数据集结构

数据实例

一个数据实例是一个完整的多轮对话，涉及两个众包工作者，一个扮演bot角色，另一个扮演user角色。每个回合有一个单一的语句。

数据字段

每个对话实例包含以下字段：

id：对话的唯一ID。
user_id：用户的唯一ID。
bot_id：机器人的唯一ID。
domain：领域的唯一ID。
task_id：任务的唯一ID。
turns：交替的bot和user的语句序列，从bot的提示开始。

每个任务实例包含以下字段：

task_id：任务的唯一ID。
domain：领域的唯一ID。
bot_prompt：机器人的任务说明。
bot_role：机器人的领域导向角色。
user_prompt：用户的任务说明。
user_role：用户的领域导向角色。

数据分割

数据集分为train和test两部分，具体如下：

	训练集	测试集	合计
总领域数	47	4	51
总任务数	226	14	240
总对话数	37884	2319	40203

以下是数据集的各种统计信息：

统计量	平均值	最小值	最大值
每个领域的任务数	4.8	3	11
每个领域的对话数	806.0	288	1990
每个任务的对话数	167.6	32	285
每个对话的回合数	11.4	10	46

数据集创建

数据集信息

config_name: dialogues
- 特征：
  - id: 字符串类型
  - user_id: 字符串类型
  - bot_id: 字符串类型
  - domain: 字符串类型
  - task_id: 字符串类型
  - turns: 字符串序列
- 分割：
  - train: 37884个样本，19999218字节
  - test: 2319个样本，1284287字节
- 下载大小：8629863字节
- 数据集大小：21283505字节
config_name: tasks
- 特征：
  - task_id: 字符串类型
  - domain: 字符串类型
  - bot_prompt: 字符串类型
  - bot_role: 字符串类型
  - user_prompt: 字符串类型
  - user_role: 字符串类型
- 分割：
  - train: 227个样本，73768字节
  - test: 14个样本，4351字节
- 下载大小：8629863字节
- 数据集大小：78119字节

额外信息

数据集许可

数据集根据Microsoft Research Data License Agreement发布。

引用信息

版本1.0的引用信息如下：

@InProceedings{shalyminov2020fast, author = {Shalyminov, Igor and Sordoni, Alessandro and Atkinson, Adam and Schulz, Hannes}, title = {Fast Domain Adaptation For Goal-Oriented Dialogue Using A Hybrid Generative-Retrieval Transformer}, booktitle = {2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, year = {2020}, month = {April}, url = {https://www.microsoft.com/en-us/research/publication/fast-domain-adaptation-for-goal-oriented-dialogue-using-a-hybrid-generative-retrieval-transformer/}, }

搜集汇总

数据集介绍

构建方式

在面向目标的对话系统研究领域，快速适应新领域的能力是提升模型实用性的关键。MetaLWOz数据集正是为此而生，通过众包方式模拟Wizard-of-Oz实验范式，招募两名人类参与者分别扮演机器人和真实用户角色。每对参与者被分配至特定领域内的任务，例如预订餐厅或查询滑雪信息，并协作完成多轮对话。数据集共涵盖47个领域、227项任务，收集了37,884条训练对话与2,319条测试对话，每条对话至少包含10轮交互。这种构建方式确保了对话的自然性和任务导向性，为迁移学习与元学习方法提供了丰富的训练素材。

特点

该数据集的核心特点在于其多领域覆盖与任务多样性，通过将对话按领域和任务进行结构化组织，每条实例均包含对话ID、用户与机器人标识、领域与任务映射以及完整的轮次序列。任务配置信息独立存储，详细定义了机器人端与用户端的角色提示，便于模型理解对话目标。对话长度分布均衡，平均每轮11.4次交互，且每个任务平均包含167.6条对话，为小样本适应场景提供了充足的样本支撑。此外，数据集中机器人始终发起对话，确保了交互起始的一致性。

使用方法

研究者可将此数据集用于训练生成式对话模型，特别是探索如何利用少量数据快速模拟用户响应。具体而言，可将对话历史作为输入，预测下一轮用户话语，从而构建序列到序列的学习任务。数据集提供了明确的训练/测试分割，支持在47个领域上进行模型预训练，并在4个保留领域上评估其域适应能力。通过调用HuggingFace的datasets库，可便捷加载dialogues和tasks两个配置项，分别获取对话实例与任务定义，为元学习或迁移学习实验提供标准化的数据接口。

背景与挑战

背景概述

在任务导向型对话系统的研究中，模型在有限数据下的快速适应能力一直是核心挑战之一。微软研究院（蒙特利尔）的研究团队于2020年发布了Meta-Learning Wizard of Oz（MetaLWOz）数据集，旨在推动对话模型在少样本场景下的迁移学习与元学习研究。该数据集通过众包方式模拟了“巫师之Oz”实验范式，要求一名参与者扮演机器人、另一名扮演真实用户，共同完成跨越47个领域、227个具体任务的对话。数据集包含37,884条训练对话和2,319条测试对话，每条对话至少10轮，覆盖了餐厅预订、滑雪场查询等多样化场景，为研究对话模型的跨领域泛化能力提供了宝贵的资源。其影响力体现在为少样本对话适应方法（如混合生成-检索Transformer）提供了标准化评估基准，加速了该领域从单领域模型向多领域可迁移模型的范式转变。

当前挑战

MetaLWOz数据集所解决的领域问题主要聚焦于任务导向型对话模型在数据稀缺时的快速适应能力，传统方法依赖大规模领域内标注数据，而该数据集通过多领域任务设计迫使模型学习领域间共享的对话模式。构建过程中面临的关键挑战包括：1）任务设计的平衡性——需确保47个领域内任务数量与对话轮次分布均匀，以避免模型偏向高频模式；2）众包数据质量控制——由于对话由非专业标注者生成，需设计严格的角色指令（如机器人需遵循固定策略）并过滤低质量交互，例如剔除未达10轮或任务未完成的对话；3）领域覆盖的广度与深度权衡——在有限预算下同时覆盖多个领域（如餐饮、旅游）并保证每个任务有足够样本（平均167.6条对话/任务），以支持元学习中“任务”级泛化能力的评估。

常用场景

经典使用场景

MetaLWOz数据集的核心应用场景在于支撑面向目标的对话系统快速适应新领域的研究。该数据集通过模拟“巫师之佐”范式，收集了涵盖47个领域、共计227项任务的人与人对话，为元学习和迁移学习范式下的少样本对话建模提供了丰富的训练与评估资源。研究者可基于此数据训练生成式或检索式对话模型，使其在仅有少量目标领域样本的情况下，迅速模拟用户行为，从而有效缓解传统任务型对话系统在新领域冷启动时面临的数据匮乏困境。

衍生相关工作

MetaLWOz的发布催生了一系列关于对话系统快速适应与元学习的经典工作。其中，Shalyminov等人基于此数据集提出了混合生成-检索Transformer架构，通过联合优化生成与检索目标实现了跨领域的高效迁移。后续研究进一步探索了基于原型网络的任务分解策略、以及利用对比学习增强跨领域表征泛化能力的方法。这些工作均以MetaLWOz为基准，验证了少样本对话适应技术的有效性，并推动了对话AI从封闭域向开放域、从静态模型向持续学习范式的演进。

数据集最近研究