ATIS, MIT corpus, SNIPS, facebook TOP semantic parsing, SMP2017-ECDT, cam DSTC 2&3, DSTC 4, google Sim-R/Sim-M/Sim-gen, cam MultiWOZ 1.0/2.0, maluuba Frames
收藏github2020-11-07 更新2024-05-31 收录
下载链接:
https://github.com/spuronlee/NLU_datasets_for_task_oriented_dialogue
下载链接
链接失效反馈官方服务:
资源简介:
这些数据集用于自然语言理解和对话状态跟踪,适用于任务导向型对话的研究。每个数据集都包含了不同的语义标注和任务,如意图分类、槽位标记等。
These datasets are designed for natural language understanding (NLU) and dialogue state tracking (DST), and are applicable to research on task-oriented dialogue. Each dataset contains diverse semantic annotations and tasks, such as intent classification, slot tagging, and more.
创建时间:
2019-06-25
原始信息汇总
数据集概述
单轮数据集
| 数据集 | 语义标注 | 任务 | URL |
|---|---|---|---|
| ATIS | intent, slot | Intent classification, slot tagging | https://github.com/yvchen/JointSLU |
| MIT corpus | slot | slot tagging | https://groups.csail.mit.edu/sls/downloads/ |
| SNIPS | slot | slot tagging | https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines |
| facebook TOP semantic parsing | hierarchical intent, slot | constituency parsing | http://fb.me/semanticparsingdialog, https://arxiv.org/abs/1810.07942 |
| SMP2017-ECDT (中文) | intent | Intent classification | http://ir.hit.edu.cn/SMP2017-ECDT, https://github.com/HITlilingzhi/SMP2017ECDT-DATA |
多轮数据集
| 数据集 | 语义标注 | NLU/DST任务 | URL |
|---|---|---|---|
| cam DSTC 2&3 | dialogue act | NLU (slot filling), DST (slot-value pairs) | http://camdial.org/~mh521/dstc/ |
| DSTC 4 | speech action, slot | NLU (slot tagging), DST (slot-value pairs) | (挑战参与者专用) http://www.colips.org/workshop/dstc4/ |
| google Sim-R/Sim-M/Sim-gen | act type, slot | NLU (slot tagging), DST (slot-value pairs) | https://github.com/google-research-datasets/simulated-dialogue |
| cam MultiWOZ 1.0/2.0 | multiple | DST (slot-value pairs) | http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/ |
| maluuba Frames | intent, dialogue act | NLU (intent classification, slot tagging), DST (slot-value pairs) | https://datasets.maluuba.com/Frames/dl |
| Microsoft Dialogue Challenge | dialogue act | NLU (slot tagging) | https://github.com/xiul-msr/e2e_dialog_challenge |
详细信息
ATIS
- 单轮;
- 输入句子: 自然语言;
- 数据大小 (单一领域 "航班信息搜索"):
- 训练集: 4978条语句;
- 测试集: 893条语句;
- 语义标注: intent (句子类别), slot (序列标注)
- intent数量: 18
- slot数量: 83
- 下载: https://github.com/yvchen/JointSLU
MIT corpus
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- MIT_Restaurant领域:
- 训练集: 7660条语句;
- 测试集: 1521条语句;
- MIT_Movie领域 (简单查询):
- 训练集: 9775条语句;
- 测试集: 2443条语句;
- MIT_Movie领域 (复杂查询):
- 训练集: 7816条语句;
- 测试集: 1953条语句;
- MIT_Restaurant领域:
- 语义标注: slot (序列标注)
- 下载: https://groups.csail.mit.edu/sls/downloads
SNIPS
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- 7个intent: 每个超过2000条查询。
- 语义标注: intent (句子类别), slot (序列标注)
- 下载: https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines
TOP semantic parsing
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- 训练集: 35741条查询
- 测试集: 9042条查询
- 语义标注: 层次化intent, slot (树结构)
- intent数量: 25
- slot数量: 36
- 下载: http://fb.me/semanticparsingdialog
SMP2017-ECDT (中文)
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- 训练集: 2299条查询
- 开发集: 770条查询
- 测试集: 666条查询
- 语义标注: intent
- intent数量: 31
- 下载: https://github.com/HITlilingzhi/SMP2017ECDT-DATA
DSTC 2&3
- 多轮: 人机对话;
- 输入句子:
- 人工转录;
- ASR输出: n-最佳, 单词混淆网络;
- 数据大小:
- DSTC 2 (餐厅信息领域): 源领域
- 训练集: 约2k对话;
- 测试集: 约1k对话;
- DSTC 3 (旅游信息领域): 扩展领域
- 种子数据: 约10对话;
- 测试集: 约2k对话;
- DSTC 2 (餐厅信息领域): 源领域
- 语义标注: dialogue act
- DSTC 2: 8个slot;
- DSTC 3: 13个slot;
- 下载: http://camdial.org/~mh521/dstc/
DSTC 4
- 多轮: 人人对话;
- 输入句子: 自然语言, 人工转录;
- 数据大小:
- 关于新加坡旅游信息的数据, 从Skype通话中收集。
- 35个对话总计31,034条语句和273,580个单词
- 语义标注: 言语行为, slot, 对话状态 (slot-value对) 在子对话级别
- 下载: 挑战参与者专用, http://www.colips.org/workshop/dstc4/
google Sim-R/Sim-M/Sim-gen
- 多轮: 代理与模拟用户之间的对话;
- 输入句子: 自然语言;
- 数据大小:
- Sim-R (餐厅):
- 训练集: 1116条查询
- 开发集: 349条查询
- 测试集: 775条查询
- Sim-M (电影):
- 训练集: 384条查询
- 开发集: 120条查询
- 测试集: 264条查询
- Sim-GEN (电影):
- 训练集: 100K条查询
- 开发集: 10K条查询
- 测试集: 10K条查询
- Sim-R (餐厅):
- 语义标注: slot
- 下载: https://github.com/google-research-datasets/simulated-dialogue
cam MultiWOZ 1.0/2.0
- 多轮: 人人对话收集方式为WOZ (Wizard-of-Oz);
- 输入句子: 自然语言;
- 数据大小: 3,406个单域对话包括预订如果领域允许, 7,032个多域对话包括至少2个至5个领域。
- 语义标注: 对话状态 (slot-value对)
- 下载: http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/
maluuba Frames
- 多轮: 人人对话收集方式为WOZ (Wizard-of-Oz);
- 输入句子: 自然语言;
- 数据大小:
- 关于旅行。
- 1369个对话, 19986轮;
- http://www.aclweb.org/anthology/W17-5526
- 语义标注: intent, dialogue act
- 任务: NLU (intent分类, slot标注), DST (slot-value对)
- 下载: https://datasets.maluuba.com/Frames/dl
Microsoft Dialogue Challenge
- 多轮:
- 通过Amazon Mechanical Turk收集的人人对话;
- 提供的内置用户模拟器;
- 输入句子: 自然语言;
- 数据大小:
- 电影票预订任务: 11个intent, 29个slot, 2890个对话;
- 餐厅预订任务: 11个intent, 30个slot, 4103个对话;
- 出租车预订任务: 11个intent, 29个slot, 3094个对话;
- 语义标注: dialogue act
- 任务: NLU (slot标注)
- 下载: https://github.com/xiul-msr/e2e_dialog_challenge
搜集汇总
数据集介绍

构建方式
maluuba Frames数据集是通过Wizard-of-Oz(WOZ)方法收集的多轮人机对话数据,专注于旅行领域的对话场景。数据集中包含1369个对话和19986个对话轮次,涵盖了丰富的自然语言输入。语义标注包括意图(intent)和对话行为(dialogue act),旨在支持自然语言理解(NLU)和对话状态跟踪(DST)任务。
特点
maluuba Frames数据集的特点在于其多轮对话结构和丰富的语义标注。每个对话都包含多个轮次,能够模拟真实的对话场景。数据集不仅标注了意图和对话行为,还支持意图分类、槽位标注和对话状态跟踪任务。此外,数据集的规模适中,适合用于模型训练和评估,尤其在旅行领域的对话系统中具有较高的应用价值。
使用方法
maluuba Frames数据集可用于自然语言理解(NLU)和对话状态跟踪(DST)的研究与开发。用户可以通过下载数据集并加载对话数据,进行意图分类、槽位标注和对话状态预测等任务。数据集提供了详细的语义标注,支持多轮对话的上下文建模。此外,研究者可以利用该数据集评估模型在多轮对话场景中的表现,并与其他对话数据集进行对比分析。
背景与挑战
背景概述
maluuba Frames数据集由Maluuba公司于2017年发布,旨在支持面向任务的对话系统中的自然语言理解(NLU)和对话状态跟踪(DST)研究。该数据集通过Wizard-of-Oz(WOZ)方法收集了1369个多轮人类对话,涵盖了旅行领域的多种场景。数据集中包含19986个对话轮次,标注了意图、对话行为和槽位信息,适用于意图分类、槽位标注和对话状态跟踪等任务。该数据集的发布为对话系统的语义解析和状态管理提供了重要的实验平台,推动了任务导向对话系统的研究进展。
当前挑战
maluuba Frames数据集在解决任务导向对话系统的语义解析问题时,面临的主要挑战包括多轮对话中的上下文依赖性、意图和槽位的复杂映射关系,以及对话行为的多样性。在数据构建过程中,由于采用WOZ方法,数据收集成本较高,且需要确保对话的自然性和多样性。此外,数据标注的准确性和一致性也是构建过程中的一大挑战,尤其是在处理多轮对话时,如何有效捕捉对话状态的动态变化并保持标注的一致性,对数据质量提出了较高要求。
常用场景
经典使用场景
在任务导向型对话系统的研究中,maluuba Frames数据集被广泛应用于自然语言理解(NLU)和对话状态跟踪(DST)的任务。该数据集通过多轮对话的形式,捕捉了用户在旅行领域的意图和对话行为,为研究者提供了丰富的语义标注数据。其经典使用场景包括意图分类、槽位标注以及对话状态跟踪,这些任务在构建智能对话系统中至关重要。
衍生相关工作
maluuba Frames数据集衍生了许多经典的研究工作。例如,基于该数据集的意图分类和槽位标注模型被广泛应用于对话系统的开发中。此外,该数据集还启发了多轮对话状态跟踪的研究,推动了对话系统在复杂场景中的应用。许多研究团队利用该数据集进行了模型优化和算法创新,进一步提升了任务导向型对话系统的性能和鲁棒性。
数据集最近研究
最新研究方向
近年来,maluuba Frames数据集在任务导向对话系统的研究中扮演了重要角色,尤其是在自然语言理解(NLU)和对话状态跟踪(DST)领域。该数据集通过多轮对话的形式,提供了丰富的语义标注,包括意图分类和槽位填充任务,为研究者提供了深入探索对话系统复杂性的机会。随着深度学习技术的进步,基于maluuba Frames的研究正逐渐向更高效的联合模型发展,这些模型能够同时处理意图检测和槽位标注,从而提高对话系统的整体性能。此外,该数据集还被广泛应用于跨领域对话系统的迁移学习研究,推动了对话系统在不同应用场景中的适应性和泛化能力。
以上内容由遇见数据集搜集并总结生成



