microsoft/meta_woz
收藏数据集卡片 for MetaLWOz
数据集描述
数据集摘要
MetaLWOz: 一个用于快速适应对话模型的多领域对话数据集。该数据集包含37,884个众包对话,涉及47个领域,共有227个任务。对话至少有10个回合。
支持的任务和排行榜
- 对话建模或
dialogue-modeling:用于训练任务导向的对话模型,特别是开发快速模拟用户响应的方法。
语言
数据集中的文本为英语(en)。
数据集结构
数据实例
一个数据实例是一个完整的多轮对话,涉及两个众包工作者,一个扮演bot角色,另一个扮演user角色。每个回合有一个单一的语句。
数据字段
每个对话实例包含以下字段:
id:对话的唯一ID。user_id:用户的唯一ID。bot_id:机器人的唯一ID。domain:领域的唯一ID。task_id:任务的唯一ID。turns:交替的bot和user的语句序列,从bot的提示开始。
每个任务实例包含以下字段:
task_id:任务的唯一ID。domain:领域的唯一ID。bot_prompt:机器人的任务说明。bot_role:机器人的领域导向角色。user_prompt:用户的任务说明。user_role:用户的领域导向角色。
数据分割
数据集分为train和test两部分,具体如下:
| 训练集 | 测试集 | 合计 | |
|---|---|---|---|
| 总领域数 | 47 | 4 | 51 |
| 总任务数 | 226 | 14 | 240 |
| 总对话数 | 37884 | 2319 | 40203 |
以下是数据集的各种统计信息:
| 统计量 | 平均值 | 最小值 | 最大值 |
|---|---|---|---|
| 每个领域的任务数 | 4.8 | 3 | 11 |
| 每个领域的对话数 | 806.0 | 288 | 1990 |
| 每个任务的对话数 | 167.6 | 32 | 285 |
| 每个对话的回合数 | 11.4 | 10 | 46 |
数据集创建
数据集信息
-
config_name: dialogues
- 特征:
id: 字符串类型user_id: 字符串类型bot_id: 字符串类型domain: 字符串类型task_id: 字符串类型turns: 字符串序列
- 分割:
train: 37884个样本,19999218字节test: 2319个样本,1284287字节
- 下载大小:8629863字节
- 数据集大小:21283505字节
- 特征:
-
config_name: tasks
- 特征:
task_id: 字符串类型domain: 字符串类型bot_prompt: 字符串类型bot_role: 字符串类型user_prompt: 字符串类型user_role: 字符串类型
- 分割:
train: 227个样本,73768字节test: 14个样本,4351字节
- 下载大小:8629863字节
- 数据集大小:78119字节
- 特征:
额外信息
数据集许可
数据集根据Microsoft Research Data License Agreement发布。
引用信息
版本1.0的引用信息如下:
@InProceedings{shalyminov2020fast, author = {Shalyminov, Igor and Sordoni, Alessandro and Atkinson, Adam and Schulz, Hannes}, title = {Fast Domain Adaptation For Goal-Oriented Dialogue Using A Hybrid Generative-Retrieval Transformer}, booktitle = {2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, year = {2020}, month = {April}, url = {https://www.microsoft.com/en-us/research/publication/fast-domain-adaptation-for-goal-oriented-dialogue-using-a-hybrid-generative-retrieval-transformer/}, }




