NLU datasets with task-oriented dialogue
收藏github2024-03-22 更新2024-05-31 收录
下载链接:
https://github.com/sz128/NLU_datasets_with_task_oriented_dialogue
下载链接
链接失效反馈官方服务:
资源简介:
包含自然语言理解和任务导向对话的对话状态跟踪数据集,适用于研究使用。
A dataset for dialogue state tracking encompassing natural language understanding and task-oriented dialogues, suitable for research purposes.
创建时间:
2018-09-14
原始信息汇总
数据集概述
单轮数据集
| 数据集 | 领域 | 语义标注 | 任务 | 链接 |
|---|---|---|---|---|
| ATIS | 预订航班 | 意图, 槽 | 意图分类, 槽标记 | https://github.com/yvchen/JointSLU |
| MIT corpus | 餐厅 & 电影 | 槽 | 槽标记 | https://groups.csail.mit.edu/sls/downloads/ |
| SNIPS | 播放列表, 餐厅, 天气, 音乐, 评价书籍等 | 意图, 槽 | 意图分类, 槽标记 | https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines |
| facebook TOP semantic parsing | 导航和事件 | 层次意图, 槽 | 成分解析 | http://fb.me/semanticparsingdialog, https://arxiv.org/abs/1810.07942 |
| Facebook Multilingual Task Oriented Dataset | 警报, 提醒, 天气 | 意图, 槽 | 意图分类, 槽标记 | https://download.pytorch.org/data/multilingual_task_oriented_dialog_slotfilling.zip |
| snips_slu_data_v1.0 | 智能灯, 智能扬声器 | 意图, 槽 | 意图分类, 槽标记 | https://github.com/snipsco/spoken-language-understanding-research-datasets |
| SMP2017-ECDT (中文) | 航班, 酒店, 闲聊 | 意图 | 意图分类 | http://ir.hit.edu.cn/SMP2017-ECDT, https://github.com/HITlilingzhi/SMP2017ECDT-DATA |
| E-commerce Shopping Assistant (ECSA) (中文) | 电子商务购物 | 槽 | 槽标记 | https://github.com/pangolulu/DCMTL |
| Clinc Intent Detection | 银行业务, 工作, 元数据, 汽车, 旅行, 家庭, 公用事业, 厨房, 小谈, 信用卡 | 意图 | 意图分类和范围外检测 | https://www.aclweb.org/anthology/attachments/D19-1131.Attachment.zip |
| FewJoint (中文) | 多领域用于少量学习 | 意图, 槽 | 意图分类, 槽标记 | 数据集; 基线 |
多轮数据集
| 数据集 | 领域数量 | 跨领域 | 语义标注 | NLU/DST 任务 | 链接 |
|---|---|---|---|---|---|
| cam DSTC 2&3 | 2 | 否 | 对话行为 | NLU (槽填充), DST (槽-值对) | https://github.com/matthen/dstc |
| DSTC 4 | ~5 | 是 | 言语行为, 槽 | NLU (槽标记), DST (槽-值对) | (仅限挑战参与者) http://www.colips.org/workshop/dstc4/ |
| google Sim-R/Sim-M/Sim-gen | 3 | 否 | 行为类型, 槽 | NLU (槽标记), DST (槽-值对) | https://github.com/google-research-datasets/simulated-dialogue |
| cam MultiWOZ 2.0/2.1 | 5 | 是 | 多领域, 槽-值对 | DST (槽-值对) | http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/ |
| maluuba Frames | 1 | 否 | 意图, 对话行为 | NLU (意图分类, 槽标记), DST (槽-值对) | https://datasets.maluuba.com/Frames/dl |
| Microsoft Dialogue Challenge | 3 | 否 | 对话行为 | NLU (槽标记) | https://github.com/xiul-msr/e2e_dialog_challenge |
| dstc8-schema-guided-dialogue | 17 | 是 | 多领域, 槽-值对, 请求槽 | DST | https://github.com/google-research-datasets/dstc8-schema-guided-dialogue |
| MultiDoGo | 6 | 是 | 超过81K对话横跨六个领域 | NLU, DST | https://github.com/awslabs/multi-domain-goal-oriented-dialogues-dataset |
| Taskmaster-1/2 | 6+7 | 否 | 13,215 + 17,289任务型对话横跨多个领域 | NLU/DST | https://github.com/google-research-datasets/Taskmaster |
| CrossWOZ(中文) | 5 | 是 | 5,012任务型对话横跨五个领域 | NLU/DST | https://github.com/google-research-datasets/Taskmaster |
数据集详细信息
ATIS
- 单轮;
- 输入句子: 自然语言;
- 数据大小 (单领域 "航班信息搜索"):
- 训练集: 4978条语句;
- 测试集: 893条语句;
- 语义标注: 意图 (句子类别), 槽 (序列标记)
- 意图数量: 18
- 槽数量: 83
- 下载: https://github.com/yvchen/JointSLU
MIT corpus
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- MIT_Restaurant 领域:
- 训练集: 7660条语句;
- 测试集: 1521条语句;
- MIT_Movie 领域 (简单查询):
- 训练集: 9775条语句;
- 测试集: 2443条语句;
- MIT_Movie 领域 (复杂查询):
- 训练集: 7816条语句;
- 测试集: 1953条语句;
- MIT_Restaurant 领域:
- 语义标注: 槽 (序列标记)
- 下载: https://groups.csail.mit.edu/sls/downloads
SNIPS
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- 7个意图: 每个都有超过2000条查询。
- 语义标注: 意图 (句子类别), 槽 (序列标记)
- 下载: https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines
TOP semantic parsing
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- 训练集: 35741条查询
- 测试集: 9042条查询
- 语义标注: 层次意图, 槽 (树结构)
- 意图数量: 25
- 槽数量: 36
- 下载: http://fb.me/semanticparsingdialog
SMP2017-ECDT (中文)
- 单轮;
- 输入句子: 自然语言;
- 数据大小:
- 训练集: 2299条查询
- 开发集: 770条查询
- 测试集: 666条查询
- 语义标注: 意图
- 意图数量: 31
- 下载: https://github.com/HITlilingzhi/SMP2017ECDT-DATA
DSTC 2&3
- 多轮: 人机对话;
- 输入句子:
- 人工转录;
- ASR输出: n-最佳, 单词混淆网络;
- 数据大小:
- DSTC 2 (餐厅信息领域): 源领域
- 训练集: 约2k对话;
- 测试集: 约1k对话;
- DSTC 3 (旅游信息领域): 扩展领域
- 种子数据: 约10对话;
- 测试集: 约2k对话;
- DSTC 2 (餐厅信息领域): 源领域
- 语义标注: 对话行为
- DSTC 2: 8个槽;
- DSTC 3: 13个槽;
- 下载: https://github.com/matthen/dstc
DSTC 4
- 多轮: 人人对话;
- 输入句子: 自然语言, 人工转录;
- 数据大小:
- 关于新加坡旅游信息的数据,从Skype通话中收集。
- 35个对话总计31,034条语句和273,580个单词
- 语义标注: 言语行为, 槽, 对话状态 (槽-值对) 在子对话级别
- 下载: 仅限挑战参与者, http://www.colips.org/workshop/dstc4/
google Sim-R/Sim-M/Sim-gen
- 多轮: 代理与模拟用户之间的对话;
- 输入句子: 自然语言;
- 数据大小:
| 数据集 | 槽 | 训练 | 开发 | 测试 |
|---|---|---|---|---|
| Sim-R (餐厅) | 价格范围, 位置, 餐厅名称,<br>类别, 人数, 日期, 时间 | 1116 | 349 | 775 |
| Sim-M (电影) | 剧院名称, 电影, 日期, 时间,<br>人数 | 384 | 120 | 264 |
| Sim-GEN (电影) | 剧院名称, 电影, 日期, 时间,<br>人数 | 100K | 10K | 10K |
- 语义标注: 槽
- 下载: https://github.com/google-research-datasets/simulated-dialogue
cam MultiWOZ 2.0/2.1
- 多轮: 人人对话以WOZ (Wizard-of-Oz)方式收集;
- 输入句子: 自然语言;
- 数据大小: 有3,406个单领域对话,包括如果领域允许的预订,以及7,032个多领域对话,包括至少2个到5个领域。
- 语义标注: 对话状态 (槽-值对)
- 下载: http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/
maluuba Frames
- 多轮: 人人对话以WOZ (Wizard-of-Oz)方式收集;
- 输入句子: 自然语言;
- 数据大小:
- 关于旅行。
- 1369个对话, 19986轮;
- http://www.aclweb.org/anthology/W17-5526
- 语义标注: 意图, 对话行为
- 任务: NLU (意图分类, 槽标记), DST (槽-值对)
- 下载: https://datasets.maluuba.com/Frames/dl
Microsoft Dialogue Challenge
- 多轮:
- 通过Amazon Mechanical Turk收集的人人对话;
- 提供内置用户模拟器;
- 输入句子: 自然语言;
- 数据大小:
| 任务 | 意图 | 槽 | 对话数量 |
|---|---|---|---|
| 电影票预订 | 11 | 29 | 2890 |
| 餐厅预订 | 11 | 30 | 4103 |
| 出租车订购 | 11 | 29 | 3094 |
- 语义标注: 对话行为
- 任务: NLU (槽标记)
- 下载: https://github.com/xiul-msr/e2e_dialog_challenge
搜集汇总
数据集介绍

构建方式
该数据集专注于任务导向对话中的自然语言理解(NLU)和对话状态跟踪(DST),旨在为研究提供丰富的语料支持。数据集的构建基于多个公开的对话数据集,涵盖了单轮和多轮对话场景。单轮对话数据集如ATIS、SNIPS等,主要包含意图分类和槽位标注任务;多轮对话数据集如DSTC、MultiWOZ等,则涉及更复杂的对话状态跟踪和跨领域对话。数据集的构建过程中,研究者通过人工标注和自动化工具相结合的方式,确保了数据的多样性和准确性。
使用方法
该数据集的使用方法灵活多样,研究者可以根据具体任务选择相应的数据集进行实验。对于意图分类和槽位标注任务,可以使用ATIS、SNIPS等单轮对话数据集;对于对话状态跟踪任务,则可以选择DSTC、MultiWOZ等多轮对话数据集。数据集提供了详细的标注信息和下载链接,研究者可以通过GitHub页面获取数据并进行预处理。此外,数据集还提供了相关的代码实现和基线模型,方便研究者快速上手并进行对比实验。
背景与挑战
背景概述
NLU datasets with task-oriented dialogue 数据集聚焦于自然语言理解(NLU)和对话状态跟踪(DST)领域,旨在为任务导向型对话系统提供研究支持。该数据集由多个子数据集组成,涵盖了单轮和多轮对话场景,涉及多个领域如电影、餐厅、航班等。其主要研究人员包括AtmaHou等贡献者,数据集的核心研究问题是如何构建语义解析器以支持口语对话系统。该数据集在NLU和DST领域具有重要影响力,推动了对话系统的语义理解和状态跟踪技术的发展。
当前挑战
该数据集在解决任务导向型对话系统的语义理解和状态跟踪问题时,面临诸多挑战。首先,不同领域的对话数据具有高度异构性,如何统一处理多领域数据成为一大难题。其次,多轮对话中的上下文依赖性增加了语义解析的复杂性,模型需要准确捕捉对话历史信息。此外,数据标注的准确性和一致性对模型性能至关重要,但人工标注过程中难免存在误差。在数据集构建过程中,如何平衡数据规模与标注质量,以及如何处理多语言、多领域的对话数据,也是研究者需要克服的挑战。
常用场景
经典使用场景
NLU datasets with task-oriented dialogue 数据集在自然语言理解(NLU)和对话状态跟踪(DST)领域具有广泛的应用。该数据集特别适用于构建面向任务的对话系统,涵盖了从意图检测到槽位填充的多种任务。通过提供丰富的语义标注和多轮对话数据,研究人员能够深入探索对话系统的语义解析和状态管理机制,从而提升系统的交互能力和理解精度。
解决学术问题
该数据集有效解决了面向任务对话系统中的多个关键学术问题,如意图分类、槽位标注和对话状态跟踪。通过提供多样化的对话场景和详细的语义标注,研究人员能够开发更精确的语义解析模型,提升对话系统的理解能力和交互效率。此外,数据集的多轮对话设计为研究上下文依赖的对话管理提供了重要支持,推动了对话系统在复杂场景中的应用。
实际应用
在实际应用中,NLU datasets with task-oriented dialogue 数据集被广泛用于开发智能客服、虚拟助手和任务型对话系统。通过利用该数据集,企业能够构建更加智能和高效的对话系统,提升用户体验和服务质量。例如,在航班预订、餐厅推荐和电影票务等场景中,该数据集帮助系统准确理解用户意图并完成复杂任务,显著提高了自动化服务的水平。
数据集最近研究
最新研究方向
在任务导向对话系统中,自然语言理解(NLU)和对话状态跟踪(DST)的研究正逐步向多轮对话和跨领域对话的复杂场景拓展。近年来,研究者们致力于提升语义解析的准确性,特别是在多轮对话中如何有效捕捉上下文信息,以实现更精准的意图识别和槽位填充。例如,MultiWOZ和DSTC系列数据集被广泛用于多轮对话的研究,推动了跨领域对话系统的开发。此外,随着多语言对话数据集的引入,如Facebook多语言任务导向数据集,研究者们开始探索跨语言对话系统的构建,以应对全球化应用的需求。这些研究不仅提升了对话系统的智能化水平,也为实际应用场景中的用户体验优化提供了有力支持。
以上内容由遇见数据集搜集并总结生成



