Sim-R (Restaurant), Sim-M (Movie), Sim-GEN (Movie)

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/simulated-dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了两个数据集，包含预订餐厅桌子和购买电影票的对话。每个数据集的对话数量如下表所示。每个目录中的README文件包含有关数据集的更多详细信息。

We have released two datasets containing dialogues for booking restaurant tables and purchasing movie tickets. The number of dialogues in each dataset is shown in the table below. The README file in each directory contains more detailed information about the datasets.

创建时间：

2017-09-23

原始信息汇总

数据集概述

数据集名称

Sim-R (Restaurant)
Sim-M (Movie)
Sim-GEN (Movie)

数据集内容

Sim-R (Restaurant): 包含预订餐厅桌子的对话，涉及的槽位包括价格范围、位置、餐厅名称、类别、人数、日期和时间。
Sim-M (Movie): 包含购买电影票的对话，涉及的槽位包括影院名称、电影、日期、时间和人数。
Sim-GEN (Movie): 同样包含购买电影票的对话，涉及的槽位与Sim-M相同。

数据集规模

Dataset	Train	Dev	Test
Sim-R (Restaurant)	1116	349	775
Sim-M (Movie)	384	120	264
Sim-GEN (Movie)	100K	10K	10K

数据集用途

Sim-R 和 Sim-M: 用于对话状态跟踪研究，相关研究成果在《Scalable Multi-Domain Dialogue State Tracking (IEEE ASRU 2017)》中报告。
Sim-GEN: 用于端到端可训练的任务导向对话系统研究，相关研究成果在《Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems》中报告。

数据集引用

若在研究中使用或讨论这些数据集，请引用以下论文： shell @article{shah2018building, title={Building a Conversational Agent Overnight with Dialogue Self-Play}, author={Shah, Pararth and Hakkani-T{"u}r, Dilek and T{"u}r, Gokhan and Rastogi, Abhinav and Bapna, Ankur and Nayak, Neha and Heck, Larry}, journal={arXiv preprint arXiv:1801.04871}, year={2018} }

搜集汇总

数据集介绍

构建方式

Sim-R、Sim-M和Sim-GEN数据集的构建采用了Machines Talking To Machines (M2M)框架，该框架结合了对话自演和众包技术。在对话自演阶段，系统生成包含每轮对话语义框架的对话大纲；在众包阶段，通过人工为每轮对话提供自然语言表达。这种双重机制确保了对话的多样性和自然性，同时通过大规模生成对话，覆盖了多种可能的对话场景。

使用方法

Sim-R、Sim-M和Sim-GEN数据集可用于多种对话系统相关的研究任务，如对话状态跟踪、任务导向对话系统的训练与评估。研究人员可以通过加载数据集中的对话样本，提取语义槽位信息，构建对话模型。对于Sim-GEN数据集，由于其规模庞大，特别适合用于深度学习模型的训练，以提升对话系统的泛化能力和鲁棒性。使用这些数据集时，建议参考相关论文中的实验设置，以确保结果的可靠性和可复现性。

背景与挑战

背景概述

Sim-R (Restaurant)、Sim-M (Movie)和Sim-GEN (Movie)数据集由Google研究团队于2018年发布，旨在推动对话系统的研究与发展。这些数据集基于Machines Talking To Machines (M2M)框架构建，结合了对话自演和众包技术，生成了丰富的模拟对话数据。核心研究问题在于如何通过自动化方式生成高质量的对话数据，以支持任务导向型对话系统的训练与评估。这些数据集在对话状态跟踪和端到端任务导向型对话系统领域具有重要影响力，为相关研究提供了宝贵的资源。

当前挑战

Sim-R、Sim-M和Sim-GEN数据集在构建和应用过程中面临多重挑战。首先，对话数据的生成需要确保语义框架的准确性和自然语言表达的流畅性，这对自演和众包技术的结合提出了高要求。其次，对话状态跟踪任务中，如何精确捕捉和更新对话状态信息是一个复杂的问题，尤其是在多领域对话场景中。此外，端到端任务导向型对话系统的训练需要大量高质量数据，而Sim-GEN数据集虽然规模庞大，但其生成过程中的噪声和偏差仍需进一步优化。这些挑战不仅影响了数据集的构建质量，也对后续研究的有效性提出了更高要求。

常用场景

经典使用场景

Sim-R、Sim-M和Sim-GEN数据集在对话系统研究中扮演着重要角色，尤其是在任务导向型对话系统的开发与评估中。这些数据集通过模拟用户与代理之间的对话，为研究者提供了丰富的对话样本。经典的使用场景包括对话状态跟踪（Dialogue State Tracking）和端到端可训练的任务导向型对话系统（End-to-End Trainable Task-Oriented Dialogue Systems）。通过对话自演和众包结合的方式，这些数据集能够生成多样化的对话场景，涵盖餐厅预订和电影票购买等常见任务。

解决学术问题

这些数据集解决了任务导向型对话系统研究中的多个关键问题。首先，它们为对话状态跟踪提供了标准化的评估基准，帮助研究者衡量模型在理解用户意图和更新对话状态方面的性能。其次，Sim-GEN数据集通过大规模对话生成，支持端到端可训练对话系统的开发，使得模型能够在无需人工干预的情况下，直接从对话数据中学习。这些数据集的出现，极大地推动了对话系统领域的进展，尤其是在多领域对话状态跟踪和对话管理方面。

实际应用

在实际应用中，Sim-R、Sim-M和Sim-GEN数据集被广泛应用于智能客服、虚拟助手和任务导向型对话系统的开发。例如，餐厅预订和电影票购买是日常生活中常见的任务，这些数据集为开发者提供了丰富的对话样本，帮助他们训练和优化对话系统，使其能够更自然地与用户交互。此外，这些数据集还可用于测试对话系统在不同场景下的鲁棒性和泛化能力，确保其在真实环境中的可靠性。

数据集最近研究