ConvLab/tm1

Name: ConvLab/tm1
Creator: ConvLab
Published: 2022-11-25 09:13:02
License: 暂无描述

Hugging Face2022-11-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ConvLab/tm1

下载链接

链接失效反馈

官方服务：

资源简介：

Taskmaster-1数据集包含13,215个任务型对话，其中5,507个为口语对话，7,708个为书面对话。这些对话通过两种不同的程序创建，涵盖六个领域：订购披萨、创建汽车维修预约、设置乘车服务、订购电影票、订购咖啡饮料和进行餐厅预订。数据集经过预处理，包括删除空对话或单说话者对话、随机分割对话、合并连续对话、添加对话行为注释等。数据集支持NLU、DST、Policy、NLG等任务，并且提供了数据分割的详细信息。

提供机构：

ConvLab

原始信息汇总

数据集卡片：Taskmaster-1

数据集概述

Taskmaster-1 数据集包含 13,215 个基于任务的对话，其中包括 5,507 个口头对话和 7,708 个书面对话，这些对话是通过两种不同的过程创建的。每个对话属于以下六个领域之一：订购披萨、创建汽车维修预约、设置乘车服务、订购电影票、订购咖啡饮料和预订餐厅。

数据集转换

如何从原始数据获取转换后的数据：
- 下载 master.zip。
- 在当前目录下运行 python preprocess.py。
转换的主要变化：
- 删除空对话或仅包含一个发言者的对话。
- 随机将 woz-dialogs 分为训练/验证/测试集（8:1:1）。self-dialogs 的分组遵循原始数据集。
- 合并同一发言者的连续发言（忽略重复发言）。
- 根据原始段落注释标注 dialogue acts。添加 intent 注释（inform/accept/reject）。如果原始段落注释包含指定的 slot，则 dialogue act 类型设置为 non-categorical。否则，类型设置为 binary（slot 和 value 为空），表示对交易的通用引用，例如 "OK your pizza has been ordered"。如果有多个跨度重叠，我们只保留最短的一个，因为发现这种简单策略可以减少注释中的噪声。
- 添加 domain、intent 和 slot 描述。
- 按出现顺序累积 non-categorical dialogue acts 来添加 state，除了那些意图为 reject 的。
- 保留每个对话的第一次注释，因为每个对话由两个工作者注释。
注释：
- dialogue acts, state。

支持的任务和排行榜

NLU, DST, Policy, NLG

语言

英语

数据分割

split	dialogues	utterances	avg_utt	avg_tokens	avg_domains	cat slot match(state)	cat slot match(goal)	cat slot match(dialogue act)	non-cat slot span(dialogue act)
train	10535	223322	21.2	8.75	1	-	-	-	100
validation	1318	27903	21.17	8.75	1	-	-	-	100
test	1322	27660	20.92	8.87	1	-	-	-	100
all	13175	278885	21.17	8.76	1	-	-	-	100

六个领域：[uber_lyft, movie_ticket, restaurant_reservation, coffee_ordering, pizza_ordering, auto_repair]

cat slot match：分类槽值在本体可能值中的百分比。
non-cat slot span：非分类槽值有跨度注释的百分比。

引用信息

@inproceedings{byrne-etal-2019-taskmaster, title = {Taskmaster-1:Toward a Realistic and Diverse Dialog Dataset}, author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik}, booktitle = {2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing}, address = {Hong Kong}, year = {2019} }

许可信息

CC BY 4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集