ConvLab/tm1
收藏数据集卡片:Taskmaster-1
数据集概述
Taskmaster-1 数据集包含 13,215 个基于任务的对话,其中包括 5,507 个口头对话和 7,708 个书面对话,这些对话是通过两种不同的过程创建的。每个对话属于以下六个领域之一:订购披萨、创建汽车维修预约、设置乘车服务、订购电影票、订购咖啡饮料和预订餐厅。
数据集转换
- 如何从原始数据获取转换后的数据:
- 下载 master.zip。
- 在当前目录下运行
python preprocess.py。
- 转换的主要变化:
- 删除空对话或仅包含一个发言者的对话。
- 随机将 woz-dialogs 分为训练/验证/测试集(8:1:1)。self-dialogs 的分组遵循原始数据集。
- 合并同一发言者的连续发言(忽略重复发言)。
- 根据原始段落注释标注
dialogue acts。添加intent注释(inform/accept/reject)。如果原始段落注释包含指定的slot,则dialogue act类型设置为non-categorical。否则,类型设置为binary(slot和value为空),表示对交易的通用引用,例如 "OK your pizza has been ordered"。如果有多个跨度重叠,我们只保留最短的一个,因为发现这种简单策略可以减少注释中的噪声。 - 添加
domain、intent和slot描述。 - 按出现顺序累积
non-categorical dialogue acts来添加state,除了那些意图为 reject 的。 - 保留每个对话的第一次注释,因为每个对话由两个工作者注释。
- 注释:
- dialogue acts, state。
支持的任务和排行榜
NLU, DST, Policy, NLG
语言
英语
数据分割
| split | dialogues | utterances | avg_utt | avg_tokens | avg_domains | cat slot match(state) | cat slot match(goal) | cat slot match(dialogue act) | non-cat slot span(dialogue act) |
|---|---|---|---|---|---|---|---|---|---|
| train | 10535 | 223322 | 21.2 | 8.75 | 1 | - | - | - | 100 |
| validation | 1318 | 27903 | 21.17 | 8.75 | 1 | - | - | - | 100 |
| test | 1322 | 27660 | 20.92 | 8.87 | 1 | - | - | - | 100 |
| all | 13175 | 278885 | 21.17 | 8.76 | 1 | - | - | - | 100 |
六个领域:[uber_lyft, movie_ticket, restaurant_reservation, coffee_ordering, pizza_ordering, auto_repair]
- cat slot match:分类槽值在本体可能值中的百分比。
- non-cat slot span:非分类槽值有跨度注释的百分比。
引用信息
@inproceedings{byrne-etal-2019-taskmaster, title = {Taskmaster-1:Toward a Realistic and Diverse Dialog Dataset}, author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik}, booktitle = {2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing}, address = {Hong Kong}, year = {2019} }



