Task-Oriented Dialogue Datasets

github2019-07-06 更新2024-05-31 收录

下载链接：

https://github.com/lddsdu/Task-Oriented-Dialogue-Dataset-Survey

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库调查了任务导向对话领域的多个数据集，总结了它们的基本信息，如下载链接和大小，并包括了相关研究论文的最新成果和排名。

This repository investigates multiple datasets in the field of task-oriented dialogue, summarizing their basic information such as download links and sizes, and includes the latest research papers and rankings.

创建时间：

2019-07-04

原始信息汇总

数据集概述

数据集名称及简介

名称: Task-Oriented Dialogue Dataset Survey
简介: 该数据集调查涵盖了任务导向对话领域的多个现有对话数据集，总结了它们的基本信息，如下载链接和大小，并包括了一些数据集的领导者板，以展示任务导向对话领域的研究进展。

数据集内容

Introduction: 介绍了数据集调查的目的和内容。
Call for Contributions: 鼓励用户贡献新的数据集信息或实验结果。
Leader Boards: 展示了不同数据集在任务如Slot Filling和Intent Detection上的模型排名。
Datasets Introduction: 提供了每个数据集的详细信息，包括名称、介绍、链接、任务类型等。

数据集详细信息

MultiWOZ 2.0:
- 任务: 任务导向对话
- 领域: 7个领域（Attraction, Hospital, Police, Hotel, Restaurant, Taxi, Train）
- 数据量: 10438对话，总计115,434轮对话
- 链接: 下载, 论文
Medical DS:
- 任务: 自动诊断
- 领域: 4种疾病，67种症状
- 数据量: 未详细说明
- 链接: 下载, 论文
Snips:
- 任务: 自然语言理解
- 领域: 7个任务（Weather, play music, search, add to list, book, moive）
- 数据量: 训练集13,084条，测试集700条
- 链接: 下载
MIT Restaurant Corpus:
- 任务: 自然语言理解
- 领域: 餐厅
- 数据量: 训练、开发、测试集分别为6,894、766、1,521条
- 链接: 下载
MIT Movie Corpus:
- 任务: 自然语言理解
- 领域: 电影
- 数据量: 训练、开发、测试集数据量详见原文
- 链接: 下载
ATIS:
- 任务: 自然语言理解
- 领域: 航空旅行信息
- 链接: 下载1, 下载2

数据集特点

MultiWOZ 2.0: 包含多领域对话，鼓励目标变化。
Medical DS: 从中国在线医疗社区收集，用于自动诊断。
Snips: 用于模型评估的自然语言理解数据集。
MIT Restaurant Corpus & MIT Movie Corpus: 语义标记的训练和测试语料库。
ATIS: 广泛用于SLU研究的航空旅行信息系统数据集。

搜集汇总

数据集介绍

构建方式

Task-Oriented Dialogue Dataset Survey 数据集的构建是通过广泛调研现有的对话数据集，并总结其基本信息的做法而成立的。该数据集涵盖了下载链接、大小等基础信息，并包含 leaderboard 以展示任务导向对话领域的研究进展。

使用方法

使用该数据集时，用户可以通过数据集的GitHub页面获取详细的数据集介绍、下载链接和相关论文信息。用户还可以通过leaderboard了解当前任务导向对话任务的研究进展和各模型的性能表现。

背景与挑战

背景概述

Task-Oriented Dialogue Datasets 数据集是一组用于任务导向对话研究的资源集合。该数据集的调查起始于2018年，由多个研究团队及个人贡献，旨在汇总现有对话数据集的基本信息，如下载链接和数据大小等。该数据集的创建，不仅提供了任务导向对话领域的研究人员一个共同的基础平台，而且通过领袖榜的形式展示了该领域的研究进展。其中，Task-Oriented Dialogue Dataset Survey包括了多个子数据集，如MultiWOZ、Medical DS、Snips等，这些数据集覆盖了不同领域的任务导向对话，如医疗诊断、餐厅预订、电影查询等，对推动该领域的研究具有重要意义。

当前挑战

在构建Task-Oriented Dialogue Datasets的过程中，研究人员面临了多个挑战。首先，如何确保收集的数据集能够真实反映用户的交流习惯，这对于模型的泛化能力至关重要。其次，数据标注的质量直接影响模型训练的效果，而标注过程中的主观性和不一致性是难以避免的问题。此外，不同数据集之间的任务细节和标签体系存在差异，这增加了模型迁移和比较的难度。最后，随着对话系统的复杂度增加，如何设计更加高效的数据集评估标准和领袖榜，也是当前面临的一个重要挑战。

常用场景

经典使用场景

Task-Oriented Dialogue Dataset Survey收集并概述了多个任务导向对话数据集的基本信息，其经典使用场景主要集中于自然语言处理领域，尤其是 spoken language understanding (SLU) 任务。研究人员可利用这些数据集来训练和评估对话系统在意图识别、槽位填充、对话状态跟踪等任务上的性能。

解决学术问题

该数据集解决了学术研究中如何有效构建和利用任务导向对话数据集的问题，为研究人员提供了丰富的资源来改善对话系统的理解能力和交互质量。它有助于推动任务导向对话系统的研究进展，为评估不同模型和算法的性能提供了统一的标准。

实际应用

在实际应用中，这些数据集被广泛应用于开发智能客服、语音助手和自动诊断系统等。它们帮助这些系统更好地理解用户的意图和需求，从而提供更为准确和自然的响应，提升用户体验。

数据集最近研究