Multi-Domain Goal-Oriented Dialogues (MultiDoGO)

github2023-10-01 更新2024-05-31 收录

下载链接：

https://github.com/awslabs/multi-domain-goal-oriented-dialogues-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个领域（航空、快餐、金融、保险、媒体、软件）的人与人对话数据集，分为未标注和论文分割两部分。未标注部分包含对话ID、轮次、话语ID、话语和作者角色。论文分割部分用于获取意图分类和槽位标注结果，按句子或轮次级别标注，包含对话ID、轮次、句子编号（仅句子级别）、话语ID、话语、槽位标签和意图。

This is a human-human dialogue dataset covering multiple domains including aviation, fast food, finance, insurance, media and software. It is split into two subsets: the unannotated subset and the paper-split subset. The unannotated subset contains dialogue ID, turn index, utterance ID, utterance text and speaker role. The paper-split subset is designed for acquiring intent classification and slot annotation results, which is annotated at either the sentence or turn level, and includes dialogue ID, turn index, sentence number (only applicable for sentence-level annotations), utterance ID, utterance text, slot tags and intent labels.

创建时间：

2020-06-05

原始信息汇总

数据集概述

数据集结构

数据集位于顶层 ./data 目录下，包含以下两个子目录：

1. unannotated

该目录包含未标注的人与人之间的对话，涉及以下领域：航空、快餐、金融、保险、媒体和软件。对话按领域划分，并以TSV格式提供，包含以下列：

conversationId：对话ID
turnNumber：对话轮次编号
utteranceId：话语ID
utterance：话语内容
authorRole：作者角色

2. paper_splits

该目录包含预处理的训练、开发和测试数据集，用于获取意图分类和槽位标注结果。数据集按标注粒度划分，分为句子级和轮次级：

句子级标注数据位于 ./data/paper_splits/splits_annotated_at_sentence_level
轮次级标注数据位于 ./data/paper_splits/splits_annotated_at_turn_level

每个标注粒度子目录下，提供以下领域的数据集：航空、快餐、金融、保险、媒体和软件。数据集文件名为 train.tsv、dev.tsv 和 test.tsv，包含以下列：

conversationId：对话ID
turnNumber：对话轮次编号
sentenceNumber（仅句子级标注数据）：句子编号
utteranceId：话语ID
utterance：话语内容
slot-labels：槽位标签，标签之间用空格分隔
intent：意图，多个意图用特殊标记 <div> 分隔

搜集汇总

数据集介绍

构建方式

Multi-Domain Goal-Oriented Dialogues (MultiDoGO) 数据集的构建基于多领域目标导向对话的收集与标注。数据集涵盖了航空、快餐、金融、保险、媒体和软件等多个领域的人机对话数据。数据分为未标注和已标注两部分，未标注数据以TSV格式存储，包含对话ID、轮次、话语ID、话语内容和作者角色等信息。已标注数据则进一步细分为句子级别和轮次级别的标注，分别用于意图分类和槽位标注任务。标注数据按领域划分，并提供了训练集、开发集和测试集的划分。

特点

MultiDoGO 数据集的特点在于其多领域的覆盖范围和精细的标注粒度。数据集不仅包含了多个领域的对话数据，还提供了句子级别和轮次级别的标注，使得研究者能够在不同粒度上进行意图分类和槽位标注的研究。此外，数据集中的每个话语都标注了槽位标签和意图，且支持多意图的标注，通过特殊符号进行分隔。这种多层次的标注方式为对话系统的研究提供了丰富的实验数据。

使用方法

MultiDoGO 数据集的使用方法较为灵活，研究者可以根据需要选择不同领域的对话数据进行实验。数据集提供了训练集、开发集和测试集的划分，便于模型的训练和评估。对于意图分类任务，可以使用句子级别或轮次级别的标注数据；对于槽位标注任务，则可以利用标注的槽位标签进行模型训练。数据集的TSV格式便于读取和处理，研究者可以通过简单的脚本提取所需的信息，并结合机器学习或深度学习模型进行实验。

背景与挑战

背景概述

Multi-Domain Goal-Oriented Dialogues (MultiDoGO) 数据集由 Denis Peskov 等研究人员于 2019 年发布，旨在为多领域目标导向对话系统提供大规模、高质量的标注数据。该数据集涵盖了航空、快餐、金融、保险、媒体和软件等多个领域的人机对话数据，旨在支持意图分类和槽位标注等任务的研究。MultiDoGO 的发布为自然语言处理领域，特别是对话系统的开发与评估提供了重要的资源，推动了多领域对话理解技术的发展。该数据集在 EMNLP-2019 会议上首次亮相，并迅速成为相关研究的基准数据集之一。

当前挑战

MultiDoGO 数据集在构建和应用过程中面临多重挑战。首先，多领域对话数据的收集与标注需要大量的人力与时间投入，尤其是在确保数据质量和一致性方面。其次，不同领域的对话具有显著的语义和结构差异，这对模型的泛化能力提出了更高要求。此外，数据集中存在多意图和复杂槽位标注的情况，增加了模型训练的难度。在构建过程中，研究人员还需解决数据隐私保护和领域适应性等问题，以确保数据的安全性和实用性。这些挑战共同构成了 MultiDoGO 数据集在推动对话系统研究中的核心难点。

常用场景

经典使用场景

Multi-Domain Goal-Oriented Dialogues (MultiDoGO) 数据集广泛应用于自然语言处理领域，特别是在多领域目标导向对话系统的研究中。该数据集包含了航空、快餐、金融、保险、媒体和软件等多个领域的对话数据，为研究者提供了丰富的语料库，用于训练和评估对话系统的意图识别和槽位填充能力。通过该数据集，研究者能够深入探讨不同领域对话的共性和差异，从而优化对话系统的跨领域适应性。

解决学术问题

MultiDoGO 数据集解决了多领域对话系统中意图分类和槽位标注的难题。通过提供大规模、多领域的对话数据，该数据集为研究者提供了标准化的评估基准，使得不同模型的性能能够进行公平比较。此外，数据集的标注粒度分为句子级别和对话轮次级别，进一步支持了细粒度的对话分析，推动了对话系统在复杂场景中的应用。

衍生相关工作

MultiDoGO 数据集自发布以来，催生了一系列经典研究工作。例如，基于该数据集的意图识别和槽位填充模型在多个国际会议上发表了重要成果。此外，该数据集还被用于研究跨领域对话迁移学习，探索如何将在一个领域训练的模型有效迁移到其他领域，从而减少数据标注的成本，提升模型的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集