five

GEM/schema_guided_dialog

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/schema_guided_dialog
下载链接
链接失效反馈
官方服务:
资源简介:
GEM/schema_guided_dialog数据集是一个用于对话响应生成的挑战性数据集,涵盖了从酒店和旅行到餐厅等多个领域以及广泛的对话行为。每个对话的上下文也被提供。该数据集包含18K个多领域任务导向的对话,覆盖17个领域,包括银行、事件、媒体、日历、旅行和天气等。数据集的语言仅为英语,提供了一个用于任务导向对话中语言理解、槽填充、对话状态跟踪和响应生成等多个任务的测试平台。数据集的创建使用了多领域对话模拟器生成对话大纲,并通过众包程序将这些大纲转述为自然语言话语。
提供机构:
GEM
原始信息汇总

数据集概述

数据集基本信息

  • 名称: schema_guided_dialog
  • 语言: 英语 (en)
  • 许可证: Creative Commons Attribution Share Alike 4.0 International (cc-by-sa-4.0)
  • 任务类别: 对话响应生成 (conversational)
  • 数据来源: 原始数据 (original)
  • 创建者: Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, Pranav Khaitan, Amir Fayazi, Maria Wang, Guan-Lin Chao
  • 资金来源: Google
  • 组织类型: 行业 (industry)
  • 组织: Google

数据集描述

数据集概要

该数据集是一个对话响应生成数据集,输入指定对话行为,模型需要将其转化为自然语言。数据集包含多个领域,如酒店、旅行和餐厅等,涵盖广泛的对话行为,每个对话的上下文都已提供。

数据集结构

数据字段

每个对话实例包含以下字段:

  • dialogue_id: 对话的唯一标识符。
  • services: 对话中出现的服务列表。
  • turns: 系统或用户的发言列表,每个发言包含:
    • speaker: 发言者,用户或系统。
    • utterance: 自然语言发言内容。
    • frames: 与单个服务相关的框架列表,包含服务信息、动作、调用服务、服务结果和对话状态。

数据分割

数据集分为训练集、验证集和测试集:

训练 验证 测试
对话数量 16142 2482 4201
发言数量 48426 7446 12603

分割标准

数据通常是独立同分布分割,但某些主题仅出现在训练集或测试集中。

数据集在GEM中的应用

数据集的独特性

该数据集因其广泛的对话能力和高质量的数据收集方法,能够评估更多生成能力,与其他数据集相比,其领域更加多样化。

GEM特定的数据集修改

GEM版本的数据集针对响应生成部分进行了格式化,将服务代理的发言作为生成目标,将之前的客户发言和代理的对话行为作为输入,并重新格式化对话行为以符合特定论文描述的格式。

新增分割

GEM为数据集增加了9个挑战集,用于测试模型的泛化能力和鲁棒性。

数据集使用指南

开始使用任务的资源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作