five

GEM/Taskmaster

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/Taskmaster
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个面向任务的大规模对话数据集,模型需要根据上下文生成响应。输入包含对话上下文和模型应生成的结构化表示,输入已预格式化为字符串,将其转化为纯文本到文本的问题。数据集由Google研究人员创建,使用CC-BY-4.0许可证,主要语言为英语。数据集的结构包括对话上下文、目标响应、参考响应等字段,并分为训练集、开发集和测试集。

This is a large-scale task-oriented dialogue dataset, in which models are required to generate responses based on given conversational context. The input contains the conversational context and the structured representation that the model needs to produce. All inputs have been pre-formatted into strings and converted into text-to-text tasks. This dataset was created by Google researchers, released under the CC-BY-4.0 license, and is primarily in English. The dataset comprises fields including conversational context, target response, and reference response, and is divided into training, development, and test sets.
提供机构:
GEM
原始信息汇总

数据集概述

基本信息

  • 名称: Taskmaster
  • 语言: 英语
  • 许可证: Creative Commons Attribution 4.0 International (cc-by-4.0)
  • 任务类别: 对话响应生成

数据集描述

  • 概要: 这是一个大型任务导向对话数据集,模型需生成响应。输入包含上下文和模型应生成的结构化表示。输入已预格式化为字符串,转化为纯文本到文本问题。
  • 使用方法: 可通过datasets.load_dataset(GEM/Taskmaster)加载数据集。

数据集结构

  • 数据字段:
    • gem_id: 唯一示例ID
    • context: 对话上下文
    • target: 目标字符串
    • references: 目标列表
    • conversation_id: 对话唯一ID
  • 数据分割:
    • train: 187182个示例
    • dev: 23406个示例
    • test: 23316个示例

使用目的

  • 主要任务: 对话响应生成
  • 通信目标: 电影售票对话数据集,包含23,789个注释对话。

数据集来源

  • 创建者: Google研究人员
  • 资金来源: Google
  • 数据收集方式: 众包

许可证与使用限制

  • 版权状态: 开放许可证,允许商业使用
  • 语言数据版权状态: 公共领域

技术限制与不适用场景

  • 技术限制: 无已知技术限制
  • 不适用应用: 无具体描述
  • 不鼓励的使用案例: 无具体描述
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作