Schema-Guided Dialogue (SGD) dataset

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/dstc8-schema-guided-dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

Schema-Guided Dialogue (SGD)数据集包含超过20,000个多领域、任务导向的人机对话，涉及20个领域，如银行、事件、媒体、日历、旅行和天气等。该数据集用于开发大规模虚拟助手，支持意图预测、槽填充、对话状态跟踪等多种任务。

The Schema-Guided Dialogue (SGD) dataset comprises over 20,000 multi-domain, task-oriented human-computer dialogues spanning 20 domains such as banking, events, media, calendar, travel, and weather. This dataset is utilized for the development of large-scale virtual assistants, supporting various tasks including intent prediction, slot filling, and dialogue state tracking.

创建时间：

2019-06-13

原始信息汇总

数据集概述

数据集名称： Schema-Guided Dialogue (SGD) 数据集

数据集内容：

SGD： 包含超过20,000个标注的多领域、任务导向的对话，涉及20个领域，如银行、事件、媒体、日历、旅行和天气。
SGD-X： 扩展SGD数据集，为每个模式提供5个众包变体，这些变体在语义上相似但风格上多样。

数据集用途：

用于意图预测、槽填充、对话状态跟踪、策略模仿学习、语言生成和用户模拟学习等任务。
SGD-X用于评估对话系统对模式中语言变异的鲁棒性。

数据集更新：

2021年10月19日：发布SGD-X模式以衡量模式中语言变异的鲁棒性。
2020年7月5日：发布测试集标注。

数据集结构

Schema Representation：

每个服务或API由一组函数（意图）和参数（槽）组成。
模式包括服务的功能和参数的自然语言描述。
每个模式由一个json对象表示，包含服务名称、描述、槽和意图等字段。

Dialogue Representation：

对话由一系列回合组成，每个回合包含用户或系统的语句。
每个对话由一个json对象表示，包含对话ID、服务列表和回合列表。
每个回合包含说话者、语句和框架列表。
每个框架包含服务名称、槽、动作、服务调用和服务结果等字段。

数据集许可

许可类型： CC BY-SA 4.0

引用要求： 使用数据集时，需引用以下论文：

SGD： Rastogi et al., 2020
SGD-X： Lee et al., 2022

搜集汇总

数据集介绍

构建方式

Schema-Guided Dialogue (SGD) 数据集的构建基于超过20,000个多领域、任务导向的人机对话，这些对话涉及20个不同领域的服务和API交互。数据集的对话生成借助了对话模拟器和众包工作者，确保了对话的自然性和多样性。每个对话都与一个或多个服务相关联，这些服务的接口由详细的模式（schema）描述，包括意图、槽位及其语义描述。此外，SGD-X扩展了原始数据集，通过众包工作者生成了5种语言变体，以评估对话系统在面对语言多样性时的鲁棒性。

使用方法

使用Schema-Guided Dialogue (SGD) 数据集时，研究者可以利用其丰富的注释进行多种任务的训练和评估。首先，数据集的对话和模式文件可以用于自然语言理解和对话状态跟踪模型的训练。其次，SGD-X的变体对话可以用于评估模型在面对语言多样性时的泛化能力。此外，数据集还提供了转换脚本，用于将对话根据新的模式进行转换，以便在SGD-X上进行评估。通过这些方法，研究者可以全面评估和提升对话系统的性能。

背景与挑战

背景概述

Schema-Guided Dialogue (SGD) 数据集由Google的研究团队创建，旨在推动多领域任务导向对话系统的发展。该数据集包含了超过20,000个注释的多领域对话，涉及银行、事件、媒体、日历、旅行和天气等20个领域。其核心研究问题是如何在多领域环境中实现高效的对话状态跟踪和意图预测。自2019年首次发布以来，SGD数据集已成为开发大规模虚拟助手的重要资源，尤其在零样本和少样本学习场景中表现突出。

当前挑战

SGD数据集在构建过程中面临多重挑战。首先，多领域对话的复杂性要求数据集能够涵盖广泛的领域和功能，这增加了数据收集和注释的难度。其次，为了模拟真实世界的多样性，数据集引入了多个具有重叠功能但不同接口的API，这为模型的泛化能力提出了更高的要求。此外，SGD-X扩展了原始数据集，通过引入语义相似但风格多样的语言变体，进一步测试了对话系统在面对语言多样性时的鲁棒性。

常用场景

经典使用场景

Schema-Guided Dialogue (SGD) 数据集的经典使用场景主要集中在多领域任务导向对话系统的开发与评估。该数据集包含超过20,000个注释的多领域对话，涉及银行、事件、媒体、日历、旅行和天气等20个领域。这些对话不仅涵盖了广泛的领域，还包含了多个具有重叠功能但不同接口的API，反映了现实世界中的常见场景。研究人员和开发者可以利用这些数据进行意图预测、槽填充、对话状态跟踪、策略模仿学习、语言生成和用户模拟学习等任务，从而构建和优化大规模虚拟助手。

解决学术问题

Schema-Guided Dialogue (SGD) 数据集解决了多领域对话系统中的关键学术问题，如跨领域泛化能力、零样本和少样本学习能力。通过提供包含多个领域和服务的对话数据，该数据集帮助研究人员评估和提升对话系统在未见领域中的表现。此外，SGD-X的引入进一步解决了对话系统在面对语言变体时的鲁棒性问题，推动了对话系统在实际应用中的适应性和可靠性研究。

实际应用

Schema-Guided Dialogue (SGD) 数据集在实际应用中主要用于开发和测试多领域虚拟助手。这些虚拟助手可以应用于各种服务，如银行查询、事件预订、媒体播放、日程管理、旅行规划和天气预报等。通过使用该数据集，开发者可以训练和验证其系统在不同领域和语言风格下的表现，确保虚拟助手在实际使用中能够提供一致且高质量的服务。

数据集最近研究