Task-Oriented Dialogue Datasets

github2019-09-05 更新2024-05-31 收录

下载链接：

https://github.com/xiaobiaohust/Task-Oriented-Dialogue-Dataset-Survey

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库是一个关于任务导向对话数据集的调查，涵盖了多个近期数据集和相关论文的研究成果。数据集包括ATIS和Snips等，用于支持任务导向对话系统的研究和开发。

This repository is a survey on task-oriented dialogue datasets, encompassing a range of recent datasets and related research papers. The datasets include ATIS and Snips, among others, which are utilized to support the research and development of task-oriented dialogue systems.

创建时间：

2019-09-05

原始信息汇总

数据集概述

1. MultiWOZ 2.0

简介: 由EMNLP 2018最佳论文提出，是目前最大的多域人类对话数据集，鼓励目标变化。
链接: 下载 | 论文
类型: 多轮
任务: 任务导向对话
任务详情: 包含7个域：Attraction, Hospital, Police, Hotel, Restaurant, Taxi, Train。
公共访问: 是
大小与统计: 总计10438对话，平均每轮8.93和15.39，共115,434轮。
包含标签: Belief state, User Act(inform, request slots), Agent Act(inform, request slots)
缺失标签: NLU(Intent, Slots)

2. Medical DS

简介: 收集自中国在线医疗社区儿科部门，用于自动诊断的任务导向对话系统。
链接: 下载 | 论文
类型: 多轮
任务: 任务导向对话
任务详情: 自动诊断
公共访问: 是
大小与统计: 4种疾病，67种症状
包含标签: Slot, Action

3. Snips

简介: 由Snips收集，用于自然语言理解模型评估。
链接: 下载
类型: 单轮
任务: 任务导向对话
任务详情: 7个任务：Weather, play music, search, add to list, book, moive
公共访问: 是
大小与统计: 训练集13,084，测试集700，7个意图，72个槽位标签
包含标签: Intent, Slots

4. MIT Restaurant Corpus

简介: 用于自然语言理解的语义标记训练和测试语料库。
链接: 下载
类型: 单轮
任务: 任务导向对话
任务详情: 餐厅
公共访问: 是
大小与统计: 训练、开发、测试集分别为6,894、766、1,521
包含标签: Slot

5. MIT Movie Corpus

简介: 用于自然语言理解的语义标记训练和测试语料库，包括简单和复杂查询。
链接: 下载
类型: 单轮
任务: 任务导向对话
任务详情: 电影
公共访问: 是
大小与统计: MIT Movie Eng训练、开发、测试集分别为8,798、977、2,443；MIT Movie Trivia分别为7,035、781、1,953
包含标签: Slot

6. ATIS

简介: 广泛用于口语理解研究的ATIS数据集。
链接: 下载1 | 下载2
类型: 单轮
任务: 任务导向对话
任务详情: 航空旅行信息
公共访问: 是
大小与统计: 未提供具体数据
包含标签: 未提供具体标签
缺失标签: 未提供具体缺失标签

搜集汇总

数据集介绍

构建方式

Task-Oriented Dialogue Dataset Survey 通过对现有大多数对话数据集的基本信息进行调研和总结，包括下载链接和大小等，构建了一个面向任务型对话的数据集概览。该数据集的构建主要依赖于对已有资源的整合和归纳，旨在为研究人员提供一份全面的任务型对话数据集清单。

特点

该数据集的特点在于涵盖了多种任务型对话数据集，不仅包括了数据集的基本信息，还提供了 leaderboard 以展示各个数据集在任务型对话领域的研究进展。此外，数据集包含了不同领域的任务，如天气查询、音乐播放、搜索等，为研究者提供了丰富的研究素材。

使用方法

用户可以通过数据集的下载链接获取所需数据，同时，数据集的详细信息可在提供的 Excel 文件中查看。此外，用户还可以通过 leaderboard 了解当前任务型对话领域的研究进展，以及不同模型在不同数据集上的表现，以便选择合适的数据集进行研究和模型训练。

背景与挑战

背景概述

Task-Oriented Dialogue Datasets是一个关于任务型对话的数据集调查项目，旨在总结现有对话数据集的基本信息，如下载链接和大小等。该项目的中文介绍及最新动态可通过提供的链接查看。该项目由研究人员AtmaHou维护，得到了广泛的关注，对于任务型对话领域的研究具有重要意义。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1)任务型对话领域的问题多样性，如意图识别和槽位填充等；2)数据集的多样性和复杂性，涉及多个领域和任务；3)数据标注的一致性和准确性；4)数据集的规模和可访问性。在研究领域问题方面，如ATIS和Snips数据集在意图识别和槽位填充任务上存在一定挑战，需要不断优化模型以提高准确率和泛化能力。

常用场景

经典使用场景

Task-Oriented Dialogue Dataset Survey作为一个全面的任务导向对话数据集调查，其经典使用场景主要在于为研究人员提供了一系列用于任务导向对话系统开发的数据集信息。这些数据集被广泛用于构建和评估能够理解用户意图并提取关键信息的对话系统，例如在酒店预订、餐厅查询、天气查询等日常对话场景中，系统需要准确识别用户的意图和需求，并据此提供相应的服务。

衍生相关工作

基于这些数据集，衍生出了大量相关的工作，包括但不限于对话状态跟踪、意图识别、槽位填充等方面的研究和模型。这些研究进一步推动了任务导向对话系统的发展，并在实际应用中产生了广泛的影响。

数据集最近研究