ATIS, MIT corpus, SNIPS, facebook TOP semantic parsing, SMP2017-ECDT, cam DSTC 2&3, DSTC 4, google Sim-R/Sim-M/Sim-gen, cam MultiWOZ 1.0/2.0, maluuba Frames

github2020-11-07 更新2024-05-31 收录

下载链接：

https://github.com/spuronlee/NLU_datasets_for_task_oriented_dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集用于自然语言理解和对话状态跟踪，适用于任务导向型对话的研究。每个数据集都包含了不同的语义标注和任务，如意图分类、槽位标记等。

These datasets are designed for natural language understanding (NLU) and dialogue state tracking (DST), and are applicable to research on task-oriented dialogue. Each dataset contains diverse semantic annotations and tasks, such as intent classification, slot tagging, and more.

创建时间：

2019-06-25

原始信息汇总

数据集概述

单轮数据集

数据集	语义标注	任务	URL
ATIS	intent, slot	Intent classification, slot tagging	https://github.com/yvchen/JointSLU
MIT corpus	slot	slot tagging	https://groups.csail.mit.edu/sls/downloads/
SNIPS	slot	slot tagging	https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines
facebook TOP semantic parsing	hierarchical intent, slot	constituency parsing	http://fb.me/semanticparsingdialog, https://arxiv.org/abs/1810.07942
SMP2017-ECDT (中文)	intent	Intent classification	http://ir.hit.edu.cn/SMP2017-ECDT, https://github.com/HITlilingzhi/SMP2017ECDT-DATA

多轮数据集

数据集	语义标注	NLU/DST任务	URL
cam DSTC 2&3	dialogue act	NLU (slot filling), DST (slot-value pairs)	http://camdial.org/~mh521/dstc/
DSTC 4	speech action, slot	NLU (slot tagging), DST (slot-value pairs)	(挑战参与者专用) http://www.colips.org/workshop/dstc4/
google Sim-R/Sim-M/Sim-gen	act type, slot	NLU (slot tagging), DST (slot-value pairs)	https://github.com/google-research-datasets/simulated-dialogue
cam MultiWOZ 1.0/2.0	multiple	DST (slot-value pairs)	http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/
maluuba Frames	intent, dialogue act	NLU (intent classification, slot tagging), DST (slot-value pairs)	https://datasets.maluuba.com/Frames/dl
Microsoft Dialogue Challenge	dialogue act	NLU (slot tagging)	https://github.com/xiul-msr/e2e_dialog_challenge

详细信息

ATIS

单轮;
输入句子: 自然语言;
数据大小 (单一领域 "航班信息搜索"):
- 训练集: 4978条语句;
- 测试集: 893条语句;
语义标注: intent (句子类别), slot (序列标注)
- intent数量: 18
- slot数量: 83
下载: https://github.com/yvchen/JointSLU

MIT corpus

单轮;
输入句子: 自然语言;
数据大小:
- MIT_Restaurant领域:
  - 训练集: 7660条语句;
  - 测试集: 1521条语句;
- MIT_Movie领域 (简单查询):
  - 训练集: 9775条语句;
  - 测试集: 2443条语句;
- MIT_Movie领域 (复杂查询):
  - 训练集: 7816条语句;
  - 测试集: 1953条语句;
语义标注: slot (序列标注)
下载: https://groups.csail.mit.edu/sls/downloads

SNIPS

单轮;
输入句子: 自然语言;
数据大小:
- 7个intent: 每个超过2000条查询。
语义标注: intent (句子类别), slot (序列标注)
下载: https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines

TOP semantic parsing

单轮;
输入句子: 自然语言;
数据大小:
- 训练集: 35741条查询
- 测试集: 9042条查询
语义标注: 层次化intent, slot (树结构)
- intent数量: 25
- slot数量: 36
下载: http://fb.me/semanticparsingdialog

SMP2017-ECDT (中文)

单轮;
输入句子: 自然语言;
数据大小:
- 训练集: 2299条查询
- 开发集: 770条查询
- 测试集: 666条查询
语义标注: intent
- intent数量: 31
下载: https://github.com/HITlilingzhi/SMP2017ECDT-DATA

DSTC 2&3

多轮: 人机对话;
输入句子:
- 人工转录;
- ASR输出: n-最佳, 单词混淆网络;
数据大小:
- DSTC 2 (餐厅信息领域): 源领域
  - 训练集: 约2k对话;
  - 测试集: 约1k对话;
- DSTC 3 (旅游信息领域): 扩展领域
  - 种子数据: 约10对话;
  - 测试集: 约2k对话;
语义标注: dialogue act
- DSTC 2: 8个slot;
- DSTC 3: 13个slot;
下载: http://camdial.org/~mh521/dstc/

DSTC 4

多轮: 人人对话;
输入句子: 自然语言, 人工转录;
数据大小:
- 关于新加坡旅游信息的数据, 从Skype通话中收集。
- 35个对话总计31,034条语句和273,580个单词
语义标注: 言语行为, slot, 对话状态 (slot-value对) 在子对话级别
下载: 挑战参与者专用, http://www.colips.org/workshop/dstc4/

google Sim-R/Sim-M/Sim-gen

多轮: 代理与模拟用户之间的对话;
输入句子: 自然语言;
数据大小:
- Sim-R (餐厅):
  - 训练集: 1116条查询
  - 开发集: 349条查询
  - 测试集: 775条查询
- Sim-M (电影):
  - 训练集: 384条查询
  - 开发集: 120条查询
  - 测试集: 264条查询
- Sim-GEN (电影):
  - 训练集: 100K条查询
  - 开发集: 10K条查询
  - 测试集: 10K条查询
语义标注: slot
下载: https://github.com/google-research-datasets/simulated-dialogue

cam MultiWOZ 1.0/2.0

多轮: 人人对话收集方式为WOZ (Wizard-of-Oz);
输入句子: 自然语言;
数据大小: 3,406个单域对话包括预订如果领域允许, 7,032个多域对话包括至少2个至5个领域。
语义标注: 对话状态 (slot-value对)
下载: http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

maluuba Frames

多轮: 人人对话收集方式为WOZ (Wizard-of-Oz);
输入句子: 自然语言;
数据大小:
- 关于旅行。
- 1369个对话, 19986轮;
- http://www.aclweb.org/anthology/W17-5526
语义标注: intent, dialogue act
任务: NLU (intent分类, slot标注), DST (slot-value对)
下载: https://datasets.maluuba.com/Frames/dl

Microsoft Dialogue Challenge

多轮:
- 通过Amazon Mechanical Turk收集的人人对话;
- 提供的内置用户模拟器;
输入句子: 自然语言;
数据大小:
- 电影票预订任务: 11个intent, 29个slot, 2890个对话;
- 餐厅预订任务: 11个intent, 30个slot, 4103个对话;
- 出租车预订任务: 11个intent, 29个slot, 3094个对话;
语义标注: dialogue act
任务: NLU (slot标注)
下载: https://github.com/xiul-msr/e2e_dialog_challenge

搜集汇总

数据集介绍

构建方式

maluuba Frames数据集是通过Wizard-of-Oz（WOZ）方法收集的多轮人机对话数据，专注于旅行领域的对话场景。数据集中包含1369个对话和19986个对话轮次，涵盖了丰富的自然语言输入。语义标注包括意图（intent）和对话行为（dialogue act），旨在支持自然语言理解（NLU）和对话状态跟踪（DST）任务。

特点

maluuba Frames数据集的特点在于其多轮对话结构和丰富的语义标注。每个对话都包含多个轮次，能够模拟真实的对话场景。数据集不仅标注了意图和对话行为，还支持意图分类、槽位标注和对话状态跟踪任务。此外，数据集的规模适中，适合用于模型训练和评估，尤其在旅行领域的对话系统中具有较高的应用价值。

使用方法

maluuba Frames数据集可用于自然语言理解（NLU）和对话状态跟踪（DST）的研究与开发。用户可以通过下载数据集并加载对话数据，进行意图分类、槽位标注和对话状态预测等任务。数据集提供了详细的语义标注，支持多轮对话的上下文建模。此外，研究者可以利用该数据集评估模型在多轮对话场景中的表现，并与其他对话数据集进行对比分析。

背景与挑战

背景概述

maluuba Frames数据集由Maluuba公司于2017年发布，旨在支持面向任务的对话系统中的自然语言理解（NLU）和对话状态跟踪（DST）研究。该数据集通过Wizard-of-Oz（WOZ）方法收集了1369个多轮人类对话，涵盖了旅行领域的多种场景。数据集中包含19986个对话轮次，标注了意图、对话行为和槽位信息，适用于意图分类、槽位标注和对话状态跟踪等任务。该数据集的发布为对话系统的语义解析和状态管理提供了重要的实验平台，推动了任务导向对话系统的研究进展。

当前挑战

maluuba Frames数据集在解决任务导向对话系统的语义解析问题时，面临的主要挑战包括多轮对话中的上下文依赖性、意图和槽位的复杂映射关系，以及对话行为的多样性。在数据构建过程中，由于采用WOZ方法，数据收集成本较高，且需要确保对话的自然性和多样性。此外，数据标注的准确性和一致性也是构建过程中的一大挑战，尤其是在处理多轮对话时，如何有效捕捉对话状态的动态变化并保持标注的一致性，对数据质量提出了较高要求。

常用场景

经典使用场景

在任务导向型对话系统的研究中，maluuba Frames数据集被广泛应用于自然语言理解（NLU）和对话状态跟踪（DST）的任务。该数据集通过多轮对话的形式，捕捉了用户在旅行领域的意图和对话行为，为研究者提供了丰富的语义标注数据。其经典使用场景包括意图分类、槽位标注以及对话状态跟踪，这些任务在构建智能对话系统中至关重要。

衍生相关工作

maluuba Frames数据集衍生了许多经典的研究工作。例如，基于该数据集的意图分类和槽位标注模型被广泛应用于对话系统的开发中。此外，该数据集还启发了多轮对话状态跟踪的研究，推动了对话系统在复杂场景中的应用。许多研究团队利用该数据集进行了模型优化和算法创新，进一步提升了任务导向型对话系统的性能和鲁棒性。

数据集最近研究