ConvLab/tm3
收藏Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/tm3
下载链接
链接失效反馈官方服务:
资源简介:
Taskmaster-3(也称为TicketTalk)数据集包含23,789个电影票务对话。这些对话是通过自我对话方法创建的,即由单个众包工作者编写对话双方(客户和票务代理)的对话。为了涵盖广泛的对话场景和语言现象,工作者被赋予了开放性和高度结构化的对话任务。对话涉及从客户根据类型、位置、当前上映影片或已有想法决定电影的各种路径,还包括错误处理、澄清和其他常见的对话问题。数据集支持NLU、DST、Policy、NLG和E2E等任务,并且仅包含英语数据。数据分割包括训练集、验证集和测试集,分别包含18,997、2,380和2,380个对话。数据集的使用需要先安装ConvLab-3平台,并且提供了数据转换和预处理的具体步骤。
提供机构:
ConvLab
原始信息汇总
数据集概述
- 名称: Taskmaster-3 (TicketTalk)
- 语言: 英语
- 类别: 单一语言
- 许可证: CC BY 4.0
- 大小: 10K<n<100K
- 任务类别: 对话式
数据集详情
- 内容: 包含23,789个电影票务对话,涉及选择影院、时间、电影名称、票数和日期等决策过程。
- 创建方法: 使用“self-dialog”方法,即单个众包工作者同时为两个对话角色编写对话。
- 数据处理:
- 移除空对话或仅包含一个说话者的对话。
- 将对话随机分为训练、验证和测试集(比例为8:1:1)。
- 合并同一说话者的连续发言。
- 根据原始段落注释添加对话行为和意图注释。
- 添加领域和意图描述。
- 将
api重命名为db_results。 - 通过累积非分类对话行为来添加状态。
数据集结构
- 数据分割:
分割 对话数 发言数 平均发言数 平均令牌数 平均领域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽跨度(对话行为) 训练 18997 380646 20.04 10.48 1 - - - 100 验证 2380 47531 19.97 10.38 1 - - - 100 测试 2380 48849 20.52 10.12 1 - - - 100 全部 23757 477026 20.08 10.43 1 - - - 100
支持的任务
- NLU, DST, Policy, NLG, E2E
引用信息
@inproceedings{byrne-etal-2021-tickettalk, title = "{T}icket{T}alk: Toward human-level performance with end-to-end, transaction-based dialog systems", author = "Byrne, Bill and Krishnamoorthi, Karthik and Ganesh, Saravanan and Kale, Mihir", booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.55", doi = "10.18653/v1/2021.acl-long.55", pages = "671--680", }
许可证信息
- CC BY 4.0



