five

ConvLab/tm1

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/tm1
下载链接
链接失效反馈
官方服务:
资源简介:
Taskmaster-1数据集包含13,215个任务型对话,其中5,507个为口语对话,7,708个为书面对话。这些对话通过两种不同的程序创建,涵盖六个领域:订购披萨、创建汽车维修预约、设置乘车服务、订购电影票、订购咖啡饮料和进行餐厅预订。数据集经过预处理,包括删除空对话或单说话者对话、随机分割对话、合并连续对话、添加对话行为注释等。数据集支持NLU、DST、Policy、NLG等任务,并且提供了数据分割的详细信息。
提供机构:
ConvLab
原始信息汇总

数据集卡片:Taskmaster-1

数据集概述

Taskmaster-1 数据集包含 13,215 个基于任务的对话,其中包括 5,507 个口头对话和 7,708 个书面对话,这些对话是通过两种不同的过程创建的。每个对话属于以下六个领域之一:订购披萨、创建汽车维修预约、设置乘车服务、订购电影票、订购咖啡饮料和预订餐厅。

数据集转换

  • 如何从原始数据获取转换后的数据:
    • 下载 master.zip
    • 在当前目录下运行 python preprocess.py
  • 转换的主要变化:
    • 删除空对话或仅包含一个发言者的对话。
    • 随机将 woz-dialogs 分为训练/验证/测试集(8:1:1)。self-dialogs 的分组遵循原始数据集。
    • 合并同一发言者的连续发言(忽略重复发言)。
    • 根据原始段落注释标注 dialogue acts。添加 intent 注释(inform/accept/reject)。如果原始段落注释包含指定的 slot,则 dialogue act 类型设置为 non-categorical。否则,类型设置为 binaryslotvalue 为空),表示对交易的通用引用,例如 "OK your pizza has been ordered"。如果有多个跨度重叠,我们只保留最短的一个,因为发现这种简单策略可以减少注释中的噪声。
    • 添加 domainintentslot 描述。
    • 按出现顺序累积 non-categorical dialogue acts 来添加 state,除了那些意图为 reject 的。
    • 保留每个对话的第一次注释,因为每个对话由两个工作者注释。
  • 注释:
    • dialogue acts, state。

支持的任务和排行榜

NLU, DST, Policy, NLG

语言

英语

数据分割

split dialogues utterances avg_utt avg_tokens avg_domains cat slot match(state) cat slot match(goal) cat slot match(dialogue act) non-cat slot span(dialogue act)
train 10535 223322 21.2 8.75 1 - - - 100
validation 1318 27903 21.17 8.75 1 - - - 100
test 1322 27660 20.92 8.87 1 - - - 100
all 13175 278885 21.17 8.76 1 - - - 100

六个领域:[uber_lyft, movie_ticket, restaurant_reservation, coffee_ordering, pizza_ordering, auto_repair]

  • cat slot match:分类槽值在本体可能值中的百分比。
  • non-cat slot span:非分类槽值有跨度注释的百分比。

引用信息

@inproceedings{byrne-etal-2019-taskmaster, title = {Taskmaster-1:Toward a Realistic and Diverse Dialog Dataset}, author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik}, booktitle = {2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing}, address = {Hong Kong}, year = {2019} }

许可信息

CC BY 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作