ATIS, MIT corpus, SNIPS, facebook TOP semantic parsing, Facebook Multilingual Task Oriented Dataset, snips_slu_data_v1.0, SMP2017-ECDT, E-commerce Shopping Assistant (ECSA)

github2024-03-22 更新2024-05-31 收录

下载链接：

https://github.com/sz128/NLU_DST_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

ATIS: 用于预订航班的意图和槽位标注数据集，用于意图分类和槽位标记任务。MIT corpus: 餐厅和电影领域的槽位标注数据集，用于槽位标记任务。SNIPS: 多个领域的意图和槽位标注数据集，用于意图分类和槽位标记任务。facebook TOP semantic parsing: 导航和事件领域的层次意图和槽位标注数据集，用于语法解析任务。Facebook Multilingual Task Oriented Dataset: ALARM, REMINDER, 和 WEATHER 领域的意图和槽位标注数据集，用于意图分类和槽位标记任务。snips_slu_data_v1.0: SmartLights 和 SmartSpeaker 领域的意图和槽位标注数据集，用于意图分类和槽位标记任务。SMP2017-ECDT: 航班、酒店和闲聊领域的意图标注数据集，用于意图分类任务。E-commerce Shopping Assistant (ECSA): 电子商务购物领域的槽位标注数据集，用于槽位标记任务。

ATIS: A dataset annotated with intents and slots for flight booking, utilized for intent classification and slot tagging tasks. MIT corpus: A slot-annotated dataset in the domains of restaurants and movies, employed for slot tagging tasks. SNIPS: A dataset annotated with intents and slots across multiple domains, used for intent classification and slot tagging tasks. Facebook TOP semantic parsing: A hierarchical intent and slot-annotated dataset in the domains of navigation and events, applied to syntactic parsing tasks. Facebook Multilingual Task Oriented Dataset: A dataset annotated with intents and slots in the domains of ALARM, REMINDER, and WEATHER, utilized for intent classification and slot tagging tasks. snips_slu_data_v1.0: A dataset annotated with intents and slots in the domains of SmartLights and SmartSpeaker, used for intent classification and slot tagging tasks. SMP2017-ECDT: An intent-annotated dataset in the domains of flights, hotels, and casual conversations, employed for intent classification tasks. E-commerce Shopping Assistant (ECSA): A slot-annotated dataset in the domain of e-commerce shopping, used for slot tagging tasks.

创建时间：

2018-09-14

原始信息汇总

数据集概述

单轮数据集

数据集	领域	语义标注	任务	URL
ATIS	预订航班	意图, 槽	意图分类, 槽标记	https://github.com/yvchen/JointSLU
MIT corpus	餐厅 & 电影	槽	槽标记	https://groups.csail.mit.edu/sls/downloads/
SNIPS	播放列表, 餐厅, 天气, 音乐, 评级书籍等	意图, 槽	意图分类, 槽标记	https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines
facebook TOP semantic parsing	导航和事件	层次意图, 槽	成分解析	http://fb.me/semanticparsingdialog, https://arxiv.org/abs/1810.07942
Facebook Multilingual Task Oriented Dataset	警报, 提醒, 天气	意图, 槽	意图分类, 槽标记	https://download.pytorch.org/data/multilingual_task_oriented_dialog_slotfilling.zip
snips_slu_data_v1.0	智能灯, 智能扬声器	意图, 槽	意图分类, 槽标记	https://github.com/snipsco/spoken-language-understanding-research-datasets
SMP2017-ECDT (中文)	航班, 酒店, 闲聊	意图	意图分类	http://ir.hit.edu.cn/SMP2017-ECDT, https://github.com/HITlilingzhi/SMP2017ECDT-DATA
E-commerce Shopping Assistant (ECSA) (中文)	电子商务购物	槽	槽标记	https://github.com/pangolulu/DCMTL
Clinc Intent Detection	银行业, 工作, 元数据, 汽车, 旅行, 家庭, 公用事业, 厨房, 小谈话, 信用卡	意图	意图分类和超出范围检测	https://www.aclweb.org/anthology/attachments/D19-1131.Attachment.zip
FewJoint (中文)	多领域用于少量学习	意图, 槽	意图分类, 槽标记	数据集; 基线

多轮数据集

数据集	领域数	跨领域	语义标注	NLU/DST 任务	URL
cam DSTC 2&3	2	否	对话行为	NLU (槽填充), DST (槽-值对)	https://github.com/matthen/dstc
DSTC 4	~5	是	言语行为, 槽	NLU (槽标记), DST (槽-值对)	(挑战参与者专用) http://www.colips.org/workshop/dstc4/
google Sim-R/Sim-M/Sim-gen	3	否	行为类型, 槽	NLU (槽标记), DST (槽-值对)	https://github.com/google-research-datasets/simulated-dialogue
cam MultiWOZ 2.0/2.1	5	是	多领域, 槽-值对	DST (槽-值对)	http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/
maluuba Frames	1	否	意图, 对话行为	NLU (意图分类, 槽标记), DST (槽-值对)	https://datasets.maluuba.com/Frames/dl
Microsoft Dialogue Challenge	3	否	对话行为	NLU (槽标记)	https://github.com/xiul-msr/e2e_dialog_challenge
dstc8-schema-guided-dialogue	17	是	多领域, 槽-值对, 请求槽	DST	https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
MultiDoGo	6	是	超过81K对话跨越六个领域	NLU, DST	https://github.com/awslabs/multi-domain-goal-oriented-dialogues-dataset
Taskmaster-1/2	6+7	否	13,215 + 17,289基于任务的对话跨越多个领域	NLU/DST	https://github.com/google-research-datasets/Taskmaster
CrossWOZ (中文)	5	是	5,012基于任务的对话跨越五个领域	NLU/DST	https://github.com/google-research-datasets/Taskmaster

详细信息

ATIS

单轮;
输入句子: 自然语言;
数据大小 (单领域 "航班信息搜索"):
- 训练集: 4978 语句;
- 测试集: 893 语句;
语义标注: 意图 (句子类别), 槽 (序列标记)
- 意图数量: 18
- 槽数量: 83
下载: https://github.com/yvchen/JointSLU

MIT corpus

单轮;
输入句子: 自然语言;
数据大小:
- MIT_Restaurant 领域:
  - 训练集: 7660 语句;
  - 测试集: 1521 语句;
- MIT_Movie 领域 (简单查询):
  - 训练集: 9775 语句;
  - 测试集: 2443 语句;
- MIT_Movie 领域 (复杂查询):
  - 训练集: 7816 语句;
  - 测试集: 1953 语句;
语义标注: 槽 (序列标记)
下载: https://groups.csail.mit.edu/sls/downloads

SNIPS

单轮;
输入句子: 自然语言;
数据大小:
- 7 个意图: 每个超过 2000 查询。
语义标注: 意图 (句子类别), 槽 (序列标记)
下载: https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines

TOP semantic parsing

单轮;
输入句子: 自然语言;
数据大小:
- 训练集: 35741 查询
- 测试集: 9042 查询
语义标注: 层次意图, 槽 (树结构)
- 意图数量: 25
- 槽数量: 36
下载: http://fb.me/semanticparsingdialog

SMP2017-ECDT (中文)

单轮;
输入句子: 自然语言;
数据大小:
- 训练集: 2299 查询
- 开发集: 770 查询
- 测试集: 666 查询
语义标注: 意图
- 意图数量: 31
下载: https://github.com/HITlilingzhi/SMP2017ECDT-DATA

DSTC 2&3

多轮: 人机对话;
输入句子:
- 人类转录;
- ASR 输出: n-最佳, 单词混淆网络;
数据大小:
- DSTC 2 (餐厅信息领域): 源领域
  - 训练集: 约 2k 对话;
  - 测试集: 约 1k 对话;
- DSTC 3 (旅游信息领域): 扩展领域
  - 种子数据: 约 10 对话;
  - 测试集: 约 2k 对话;
语义标注: 对话行为
- DSTC 2: 8 个槽;
- DSTC 3: 13 个槽;
下载: https://github.com/matthen/dstc

DSTC 4

多轮: 人人对话;
输入句子: 自然语言, 人类转录;
数据大小:
- 此数据是关于新加坡旅游信息的 Skype 通话收集。
- 35 对话总计 31,034 语句和 273,580 单词
语义标注: 言语行为, 槽, 对话状态 (槽-值对) 在子对话级别
下载: 挑战参与者专用, http://www.colips.org/workshop/dstc4/

google Sim-R/Sim-M/Sim-gen

多轮: 代理和模拟用户之间的对话;
输入句子: 自然语言;
数据大小:

数据集	槽	训练	开发	测试
Sim-R (餐厅)	价格范围, 位置, 餐厅名称,<br>类别, 人数, 日期, 时间	1116	349	775
Sim-M (电影)	剧院名称, 电影, 日期, 时间,<br>人数	384	120	264
Sim-GEN (电影)	剧院名称, 电影, 日期, 时间,<br>人数	100K	10K	10K

语义标注: 槽
下载: https://github.com/google-research-datasets/simulated-dialogue

cam MultiWOZ 2.0/2.1

多轮: 人人对话以 WOZ (Wizard-of-Oz) 方式收集;
输入句子: 自然语言;
数据大小: 有 3,406 单领域对话包括如果领域允许的预订和 7,032 多领域对话至少包括 2 到 5 个领域。
语义标注: 对话状态 (槽-值对)
下载: http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

maluuba Frames

多轮: 人人对话以 WOZ (Wizard-of-Oz) 方式收集;
输入句子: 自然语言;
数据大小:
- 关于旅行。
- 1369 对话, 19986 轮;
- http://www.aclweb.org/anthology/W17-5526
语义标注: 意图, 对话行为
任务: NLU (意图分类, 槽标记), DST (槽-值对)
下载: https://datasets.maluuba.com/Frames/dl

Microsoft Dialogue Challenge

多轮:
- 通过亚马逊 Mechanical Turk 收集的人人对话;
- 提供内置用户模拟器;
输入句子: 自然语言;
数据大小:

任务	意图	槽	对话
电影票预订	11	29	2890
餐厅预订	11	30	4103
出租车订购	11	29	3094

语义标注: 对话行为
任务: NLU (槽标记)
下载: https://github.com/xiul-msr/e2e_dialog_challenge

搜集汇总

数据集介绍

构建方式

该数据集集合了多个面向任务的对话数据集，涵盖了自然语言理解（NLU）和对话状态跟踪（DST）的研究需求。数据集的构建基于真实场景中的用户对话，包括单轮和多轮对话。单轮对话数据集如ATIS、SNIPS等，主要通过用户查询语句进行标注，涉及意图分类和槽位填充任务。多轮对话数据集如DSTC、MultiWOZ等，则通过模拟或真实对话记录构建，标注了对话行为和状态信息。数据集的构建过程严格遵循语义解析和对话管理的需求，确保了数据的多样性和实用性。

特点

该数据集的特点在于其广泛的领域覆盖和丰富的语义标注。单轮对话数据集如ATIS和SNIPS，专注于特定领域的意图分类和槽位填充，数据量较大且标注精细。多轮对话数据集如DSTC和MultiWOZ，则通过多轮对话的上下文信息，提供了更复杂的对话状态跟踪任务。此外，数据集还涵盖了跨领域的对话场景，如Facebook Multilingual Task Oriented Dataset，支持多语言任务导向的对话研究。数据集的多样性和高质量标注使其成为NLU和DST研究的理想选择。

使用方法

该数据集的使用方法主要包括意图分类、槽位填充和对话状态跟踪等任务。研究人员可以通过加载数据集，进行模型的训练和评估。单轮对话数据集如ATIS和SNIPS，适用于意图检测和槽位填充的联合训练。多轮对话数据集如DSTC和MultiWOZ，则可用于对话状态跟踪和跨领域对话管理的研究。此外，数据集还提供了详细的标注信息和下载链接，便于研究人员快速上手。通过结合相关论文和开源实现，研究人员可以深入探索任务导向对话系统的语义解析和对话管理技术。

背景与挑战

背景概述

ATIS、MIT corpus、SNIPS等数据集是自然语言理解（NLU）和对话状态跟踪（DST）领域的重要资源，广泛应用于任务导向对话系统的研究中。这些数据集由多个研究机构创建，如麻省理工学院（MIT）、Snips公司以及Facebook等，涵盖了航班预订、餐厅推荐、电影查询等多个领域。ATIS数据集最早于1990年代推出，专注于航班信息查询，而SNIPS数据集则于2017年发布，支持多领域的意图分类和槽位填充任务。这些数据集的构建为NLU技术的发展提供了坚实的基础，推动了语义解析、意图检测和槽位填充等核心问题的研究进展。

当前挑战

在任务导向对话系统的研究中，这些数据集面临的主要挑战包括：1) 领域问题的复杂性，如多轮对话中的上下文依赖性和跨领域迁移问题，增加了语义解析的难度；2) 数据标注的准确性和一致性，尤其是在多语言和多领域场景下，标注的标准化和统一性难以保证；3) 数据规模的限制，部分数据集的样本量较小，难以支持深度学习模型的训练和泛化。此外，构建过程中还面临数据收集的多样性和真实性问题，如何模拟真实用户行为并生成高质量对话数据仍是一个亟待解决的难题。

常用场景

经典使用场景

ATIS数据集在自然语言理解（NLU）领域中被广泛用于任务导向对话系统的研究，特别是在意图检测和槽填充任务中。该数据集包含了用户查询航班信息的自然语言句子，研究者通过分析这些句子，能够训练模型以识别用户的意图并提取关键信息。这种应用场景在智能助手和客服系统中尤为重要，能够显著提升系统的交互效率和用户体验。

衍生相关工作

ATIS数据集催生了许多经典的研究工作，特别是在联合训练意图检测和槽填充的模型中。例如，研究者提出了基于深度学习的联合模型，能够同时处理意图分类和槽填充任务，显著提升了模型的性能。此外，ATIS数据集还被用于评估新型的语义解析方法，推动了自然语言理解技术的不断创新和发展。

数据集最近研究