five

ConvLab/tm2

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/tm2
下载链接
链接失效反馈
官方服务:
资源简介:
Taskmaster-2数据集包含17,289个对话,涵盖七个领域。与Taskmaster-1不同,Taskmaster-2完全由两人口头对话组成,并且包含大量搜索和推荐导向的对话。这些对话是通过Wizard of Oz(WOz)方法创建的,其中众包工人扮演“用户”角色,而训练有素的呼叫中心操作员扮演“助手”角色。这种方法使用户相信他们正在与一个使用文本转语音(TTS)的自动化系统交互,而实际上背后是人类操作员。数据集还包括对话行为、状态等注释,并支持NLU、DST、Policy、NLG等任务。

The Taskmaster-2 dataset contains 17,289 conversations spanning seven domains. Unlike Taskmaster-1, Taskmaster-2 consists entirely of two-party oral conversations and includes a large number of search and recommendation-oriented dialogues. These conversations were created using the Wizard of Oz (WOz) methodology, where crowdworkers act as the "user" role, while trained call center operators take on the "assistant" role. This setup enables users to believe they are interacting with an automated system utilizing text-to-speech (TTS), whereas the actual interaction is powered by human operators. The dataset also includes annotations such as dialogue acts and dialogue states, and supports tasks including natural language understanding (NLU), dialogue state tracking (DST), dialogue policy learning, and natural language generation (NLG).
提供机构:
ConvLab
原始信息汇总

数据集概述

基本信息

  • 名称: Taskmaster-2
  • 语言: 英语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 规模: 10K<n<100K
  • 任务类别: 对话式

数据集描述

  • 内容: 包含17,289个对话,涉及七个领域。与Taskmaster-1不同,Taskmaster-2完全由两人口语对话组成,且包含大量搜索和推荐导向的对话。
  • 创建方法: 使用Wizard of Oz方法,其中众包工作者扮演用户,训练有素的呼叫中心操作员扮演助手。

数据处理

  • 原始数据转换:
    • 下载master.zip
    • 运行python preprocess.py进行预处理。
  • 主要转换步骤:
    • 移除空对话或仅包含一个说话者的对话。
    • 随机将每个领域的对话分割为训练/验证/测试集(8:1:1)。
    • 合并同一说话者的连续发言。
    • 根据原始段落注释添加对话行为意图注释。
    • 添加领域意图描述。
    • 通过累积出现的非分类对话行为来添加状态
    • 保留首次注释。

数据集结构

  • 注释类型: 对话行为, 状态
  • 支持的任务: NLU, DST, Policy, NLG
  • 数据分割:
    • 训练: 13,838对话
    • 验证: 1,731对话
    • 测试: 1,734对话
    • 总计: 17,303对话

引用信息

@inproceedings{byrne-etal-2019-taskmaster, title = {Taskmaster-1:Toward a Realistic and Diverse Dialog Dataset}, author = {Bill Byrne and Karthik Krishnamoorthi and Chinnadhurai Sankar and Arvind Neelakantan and Daniel Duckworth and Semih Yavuz and Ben Goodrich and Amit Dubey and Kyu-Young Kim and Andy Cedilnik}, booktitle = {2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing}, address = {Hong Kong}, year = {2019} }

许可证

  • CC BY 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作