five

ConvLab/tm3

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/tm3
下载链接
链接失效反馈
官方服务:
资源简介:
Taskmaster-3(也称为TicketTalk)数据集包含23,789个电影票务对话。这些对话是通过自我对话方法创建的,即由单个众包工作者编写对话双方(客户和票务代理)的对话。为了涵盖广泛的对话场景和语言现象,工作者被赋予了开放性和高度结构化的对话任务。对话涉及从客户根据类型、位置、当前上映影片或已有想法决定电影的各种路径,还包括错误处理、澄清和其他常见的对话问题。数据集支持NLU、DST、Policy、NLG和E2E等任务,并且仅包含英语数据。数据分割包括训练集、验证集和测试集,分别包含18,997、2,380和2,380个对话。数据集的使用需要先安装ConvLab-3平台,并且提供了数据转换和预处理的具体步骤。
提供机构:
ConvLab
原始信息汇总

数据集概述

  • 名称: Taskmaster-3 (TicketTalk)
  • 语言: 英语
  • 类别: 单一语言
  • 许可证: CC BY 4.0
  • 大小: 10K<n<100K
  • 任务类别: 对话式

数据集详情

  • 内容: 包含23,789个电影票务对话,涉及选择影院、时间、电影名称、票数和日期等决策过程。
  • 创建方法: 使用“self-dialog”方法,即单个众包工作者同时为两个对话角色编写对话。
  • 数据处理:
    • 移除空对话或仅包含一个说话者的对话。
    • 将对话随机分为训练、验证和测试集(比例为8:1:1)。
    • 合并同一说话者的连续发言。
    • 根据原始段落注释添加对话行为和意图注释。
    • 添加领域和意图描述。
    • api重命名为db_results
    • 通过累积非分类对话行为来添加状态。

数据集结构

  • 数据分割:
    分割 对话数 发言数 平均发言数 平均令牌数 平均领域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽跨度(对话行为)
    训练 18997 380646 20.04 10.48 1 - - - 100
    验证 2380 47531 19.97 10.38 1 - - - 100
    测试 2380 48849 20.52 10.12 1 - - - 100
    全部 23757 477026 20.08 10.43 1 - - - 100

支持的任务

  • NLU, DST, Policy, NLG, E2E

引用信息

@inproceedings{byrne-etal-2021-tickettalk, title = "{T}icket{T}alk: Toward human-level performance with end-to-end, transaction-based dialog systems", author = "Byrne, Bill and Krishnamoorthi, Karthik and Ganesh, Saravanan and Kale, Mihir", booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.55", doi = "10.18653/v1/2021.acl-long.55", pages = "671--680", }

许可证信息

  • CC BY 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作