Schema-Guided Dialogue (SGD) dataset

Name: Schema-Guided Dialogue (SGD) dataset
Creator: 谷歌研究院
Published: 2020-01-30 02:57:49
License: 暂无描述

arXiv2020-01-30 更新2024-07-25 收录

下载链接：

https://github.com/google-research-datasets/dstc8-schema-guided-dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

Schema-Guided Dialogue (SGD)数据集是由谷歌研究院创建的，包含超过16,000个多领域对话，覆盖16个领域。该数据集旨在解决构建大规模虚拟助手时遇到的挑战，如支持不断增加的服务数量和处理零训练数据服务。数据集通过使用动态意图和槽位的自然语言描述，允许单一对话系统轻松支持大量服务，并促进新服务的简单集成。SGD数据集设计用于测试语言理解、槽填充、对话状态跟踪和响应生成等任务，特别强调模型在零样本设置下的泛化能力。

Schema-Guided Dialogue (SGD) dataset was created by Google Research, which contains over 16,000 multi-domain conversations spanning 16 domains. This dataset aims to address the challenges encountered when building large-scale virtual assistants, such as supporting an ever-growing number of services and handling services with zero training data. By leveraging natural language descriptions of dynamic intents and slots, the dataset enables a single dialogue system to easily support a large volume of services and facilitates straightforward integration of new services. The SGD dataset is designed for testing tasks including language understanding, slot filling, dialogue state tracking, and response generation, with particular emphasis on the generalization capability of models under zero-shot settings.

提供机构：

谷歌研究院

创建时间：

2019-09-13

原始信息汇总

数据集概述

数据集名称

Schema-Guided Dialogue (SGD) 数据集

数据集描述

包含超过20k条标注的多领域、任务导向的对话，涉及20个领域，如银行、事件、媒体、日历、旅行和天气。
大多数领域包含多个不同的API，这些API具有重叠的功能但不同的接口，反映常见现实场景。
数据集可用于意图预测、槽填充、对话状态跟踪、策略模仿学习、语言生成和用户模拟学习等任务。
评估集中包含未见过的领域和服务，以量化零样本或少量样本设置下的性能。

扩展数据集

Schema-Guided Dialogue - eXtended (SGD-X) 是一个衡量对话系统对模式中语言变异鲁棒性的基准。
SGD-X扩展了SGD数据集，为每个模式提供5个众包变体，这些变体在语义上相似但在风格上多样。

数据集结构

模式表示

每个服务或API由一组函数（称为意图）组成，每个函数接受一组参数（称为槽）。
模式包括自然语言描述的函数和参数，以概述每个元素的语义。
每个模式表示为一个json对象，包含以下字段：
- service_name - 服务的唯一名称。
- description - 服务的自然语言描述。
- slots - 实体对应的槽/属性列表。
- intents - 服务支持的意图/任务列表。

对话表示

对话表示为一系列轮次，每轮包含用户或系统的话语。
每轮的标注分为帧，每个帧对应一个服务。
每个对话表示为一个json对象，包含以下字段：
- dialogue_id - 对话的唯一标识符。
- services - 对话中涉及的服务列表。
- turns - 标注的系统或用户话语列表。

数据集更新

10/19/2021 - 发布SGD-X模式，用于衡量对模式中语言变异的鲁棒性。
07/05/2020 - 发布测试集标注，包括对话中的用户操作和服务调用。
10/07/2019 - 发布测试数据集，不含对话状态标注。
07/23/2019 - 发布训练和开发集，作为DSTC8挑战的一部分。

许可证

数据集发布在 CC BY-SA 4.0 许可证下。

搜集汇总

数据集介绍

构建方式

Schema-Guided Dialogue (SGD) 数据集通过模拟器框架与服务交互生成对话大纲，随后利用众包过程将这些大纲转化为自然语言对话。模拟器框架定义了服务的模式，包括意图和槽位，并使用Freebase中的实体来填充槽位值。对话大纲生成后，通过众包工作者将其转化为自然语言对话，确保所有从模拟器获得的注释在转化过程中得以保留。

特点

SGD 数据集具有多领域覆盖的特点，包含超过16,000个对话，跨越16个领域。其规模远超现有任务导向对话语料库，并特别设计以测试模型在零样本设置下的泛化能力。数据集中的对话涉及多个服务的槽位和意图，且评估集包含训练集中未见的服务和领域，为大规模虚拟助手的构建提供了具有挑战性的测试平台。

使用方法

SGD 数据集适用于多种任务，包括语言理解、槽位填充、对话状态跟踪和响应生成。研究者可以使用该数据集训练和评估对话系统模型，特别是在多领域和零样本泛化能力方面。数据集的模式引导范式允许单一对话系统模型支持大量服务，通过使用服务的模式作为输入，模型可以动态处理不同的意图和槽位，便于新服务的简单集成。

背景与挑战

背景概述

随着虚拟助手如Google Assistant、Alexa和Siri的普及，这些助手需要支持越来越多的服务和API，涵盖多个领域。现有的任务导向对话数据集在覆盖领域和假设单一静态本体方面存在局限性。为此，Google Research的研究团队于2020年推出了Schema-Guided Dialogue (SGD)数据集，该数据集包含超过16,000个跨16个领域的多领域对话，旨在解决构建大规模虚拟助手时面临的挑战。SGD数据集不仅在规模上超越了现有的任务导向对话语料库，还为语言理解、槽填充、对话状态跟踪和响应生成等任务提供了具有挑战性的测试平台。

当前挑战

SGD数据集面临的挑战主要包括：1) 支持大量服务和API，这些服务可能具有重叠的功能但接口不同；2) 某些服务缺乏训练数据；3) 现有数据集在覆盖领域和假设单一静态本体方面的局限性。在构建过程中，研究团队遇到了如何有效生成多领域对话、如何确保对话的自然性和一致性、以及如何在没有训练数据的情况下实现零样本泛化等具体挑战。此外，数据集的设计还需要考虑如何处理新服务的集成和API的变化，以及如何在零样本设置下评估模型的性能。

常用场景

经典使用场景

Schema-Guided Dialogue (SGD) 数据集的经典使用场景主要集中在构建和评估多领域对话系统。该数据集通过提供跨越16个领域的超过16,000个对话，为语言理解、槽填充、对话状态跟踪和响应生成等任务提供了丰富的测试平台。研究人员和开发者可以利用这些数据来训练和验证他们的模型，以应对大规模虚拟助手在处理多领域服务时的复杂性。

解决学术问题

SGD 数据集解决了现有任务导向对话数据集在多领域覆盖和动态API支持方面的不足。它通过引入动态意图和槽的描述，使得单一对话系统能够轻松支持大量服务，并简化新服务的集成，无需额外训练数据。这一创新不仅推动了对话系统在多领域应用中的扩展，还为零样本泛化提供了新的研究方向，显著提升了对话系统在实际应用中的灵活性和适应性。

衍生相关工作

基于SGD数据集，研究者们开发了多种对话状态跟踪和意图识别模型，如零样本对话状态跟踪模型和多领域对话系统。这些模型利用预训练的语言模型（如BERT）来处理动态的意图和槽描述，实现了对新服务的零样本泛化。此外，SGD数据集还激发了关于对话系统在多领域和多服务环境下的性能评估和优化研究，推动了对话系统领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集