google-research-datasets/taskmaster2

Name: google-research-datasets/taskmaster2
Creator: google-research-datasets
Published: 2024-01-18 11:16:46
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/taskmaster2

下载链接

链接失效反馈

官方服务：

资源简介：

Taskmaster-2数据集是一个用于目标导向对话的数据集，包含17,289个对话，涵盖七个领域：餐厅、食品订购、电影、酒店、航班、音乐和体育。与Taskmaster-1不同，Taskmaster-2完全由两人对话组成，并且包含大量搜索和推荐导向的对话。所有对话均通过Wizard of Oz方法创建，众包工作者扮演“用户”角色，训练有素的呼叫中心操作员扮演“助手”角色，模拟用户与自动化系统的交互。数据集的结构包括对话ID、话语列表、指令ID等字段，每个话语包含索引、说话者、文本和分段信息。数据集仅包含训练集，且每个配置的样本数量不同。

The Taskmaster-2 dataset is a goal-oriented dialogue dataset containing 17,289 conversations spanning seven domains: restaurants, food ordering, movies, hotels, flights, music, and sports. In contrast to Taskmaster-1, Taskmaster-2 exclusively consists of two-party conversations and includes a large number of search and recommendation-oriented dialogues. All conversations were created using the Wizard of Oz methodology, wherein crowdworkers assumed the role of "user" and well-trained call center operators served as "assistant" to simulate user interactions with automated systems. The dataset structure includes fields such as conversation ID, utterance list, and instruction ID; each utterance contains index, speaker, text, and segment information. The dataset only contains a training split, and the number of samples varies across different configurations.

提供机构：

google-research-datasets

原始信息汇总

数据集卡片：Taskmaster-2

数据集描述

数据集概述

Taskmaster-2 数据集包含 17,289 个对话，涵盖七个领域：餐厅、食品订购、电影、酒店、航班、音乐和体育。与 Taskmaster-1 不同，Taskmaster-2 完全由两人对话组成，并且包含更多搜索和推荐导向的对话。所有对话均采用 Wizard of Oz (WOz) 方法创建，其中众包工作者扮演“用户”角色，训练有素的呼叫中心操作员扮演“助手”角色。

支持的任务和排行榜

[更多信息需补充]

语言

数据集使用英语。

数据集结构

数据实例

一个典型的数据实例如下：

json { "conversation_id": "dlg-0047a087-6a3c-4f27-b0e6-268f53a2e013", "instruction_id": "flight-6", "utterances": [ { "index": 0, "segments": [], "speaker": "USER", "text": "Hi, Im looking for a flight. I need to visit a friend." }, { "index": 1, "segments": [], "speaker": "ASSISTANT", "text": "Hello, how can I help you?" }, { "index": 2, "segments": [], "speaker": "ASSISTANT", "text": "Sure, I can help you with that." }, { "index": 3, "segments": [], "speaker": "ASSISTANT", "text": "On what dates?" }, { "index": 4, "segments": [ { "annotations": [ { "name": "flight_search.date.depart_origin" } ], "end_index": 37, "start_index": 27, "text": "March 20th" }, { "annotations": [ { "name": "flight_search.date.return" } ], "end_index": 45, "start_index": 41, "text": "22nd" } ], "speaker": "USER", "text": "Im looking to travel from March 20th to 22nd." } ] }

数据字段

每个对话包含以下字段：

conversation_id: 唯一标识符，前缀为 dlg-。
utterances: 构成对话的语句列表。
instruction_id: 引用包含用户（和适用情况下代理）指令的文件。

每个语句包含以下字段：

index: 语句在对话中的顺序索引（从0开始）。
speaker: 标识生成该语句的角色，为 USER 或 ASSISTANT。
text: 语句的原始文本。
segments: 带有语义注释的文本片段列表。

每个片段包含以下字段：

start_index: 注释在语句文本中的起始位置。
end_index: 注释在语句文本中的结束位置。
text: 被注释的原始文本。
annotations: 该片段的注释详情列表。

每个注释包含一个字段：

name: 注释名称。

数据分割

数据集没有默认分割，以下是每个配置的训练集示例数量：

配置	训练集
flights	2481
food-ordering	1050
hotels	2357
movies	3056
music	1603
restaurant-search	3276
sports	3481

数据集创建

策划理由

[更多信息需补充]

源数据

[更多信息需补充]

注释

[更多信息需补充]

使用数据集的注意事项

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

数据集遵循 Creative Commons Attribution 4.0 License 许可。

引用信息

[更多信息需补充]

贡献

感谢 @patil-suraj 添加此数据集。

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，构建高质量的任务导向对话数据集对于模型训练至关重要。Taskmaster-2数据集采用了一种精心设计的“绿野仙踪”方法进行构建，该方法通过众包平台招募用户扮演真实客户，同时由经过专业培训的呼叫中心操作员扮演智能助手角色。用户在与系统交互时，误以为其对话对象是基于文本转语音技术的自动化程序，从而在自然情境下表达需求。这种模拟真实人机交互场景的构建方式，确保了对话的自然性与多样性，涵盖了航班预订、酒店查询、餐厅搜索等七个日常服务领域，共收录了超过一万七千个对话实例。

特点

作为任务导向对话研究的重要资源，该数据集展现出多方面的显著特征。其对话内容全部源于真实的口语交互，摒弃了书面自对话形式，更贴近实际应用场景。数据结构层次分明，每个对话均包含唯一的会话标识符和指令标识符，话语序列中详细标注了说话者角色和文本内容，并对关键语义片段进行了精细的标注，如航班日期、目的地等信息。数据集覆盖领域广泛，不仅包含传统的任务完成型对话，还融入了大量搜索与推荐导向的对话类型，为模型训练提供了丰富的语义变化和交互模式。

使用方法

在自然语言处理实践中，该数据集主要服务于对话建模与文本生成任务。研究人员可通过HuggingFace平台直接加载数据集，其按领域划分为七个独立配置，每个配置包含完整的训练集。使用时可依据具体研究需求选择相应领域，或进行跨领域联合训练。数据实例以结构化JSON格式呈现，便于提取对话序列、说话者轮换信息及语义标注片段。这些标注信息可用于训练对话状态跟踪、语义槽填充及自然语言生成模型，助力构建更加智能和人性化的对话系统。

背景与挑战

背景概述

在对话系统研究领域，构建高质量、多样化的任务导向对话数据集是推动人机交互技术发展的关键。Taskmaster-2数据集由Google Research团队于2020年发布，作为Taskmaster系列的延续，专注于七个具体领域，包括航班预订、酒店查询、餐厅搜索等。该数据集通过“绿野仙踪”方法构建，模拟真实的人机对话场景，其中众包工作者扮演用户角色，而经过培训的呼叫中心操作员则模拟助理角色。这种设计旨在捕捉用户在自动化界面下的自然语言表达，为对话建模、意图识别和槽位填充等核心研究问题提供了丰富的语料资源，显著提升了任务导向对话系统的现实适应性与泛化能力。

当前挑战

Taskmaster-2数据集旨在解决任务导向对话系统中对话建模的挑战，包括处理多轮交互的复杂性、理解用户意图的歧义性以及管理领域特定知识的整合。在构建过程中，数据集面临多重挑战：首先，通过“绿野仙踪”方法收集对话需确保用户行为自然且符合真实场景，同时避免操作员介入导致的偏差；其次，对话涵盖七个不同领域，要求标注过程保持语义一致性与领域适应性；此外，数据集的规模虽达万余条对话，但在某些子领域如食品订购的样本量相对有限，可能影响模型训练的均衡性。这些挑战共同凸显了构建大规模、高质量对话数据集的固有难度。

常用场景

经典使用场景

在对话系统研究领域，Taskmaster-2数据集以其丰富的多领域口语对话资源，成为训练和评估任务导向型对话模型的经典基准。该数据集涵盖了航班预订、酒店查询、餐厅搜索等七个日常场景，通过模拟真实的人机交互过程，为研究者提供了高度结构化的对话序列与语义标注。这些数据能够有效支撑对话状态跟踪、自然语言理解及响应生成等核心任务的模型开发，尤其在处理复杂多轮对话和用户意图识别方面展现出独特价值。

解决学术问题

Taskmaster-2数据集主要致力于解决任务导向对话系统中长期存在的若干学术挑战。它通过提供大规模、多样化的口语对话实例，帮助研究者克服传统数据集在对话连贯性、领域适应性和现实性方面的局限。该数据集支持对对话管理策略、上下文建模以及语义解析算法的深入探索，显著推进了端到端对话系统的性能提升。其精细的语义标注进一步促进了对话理解中实体识别与关系抽取等子任务的研究进展。

衍生相关工作

围绕Taskmaster-2数据集，学术界已衍生出一系列经典研究工作。这些工作主要集中在改进预训练语言模型在对话任务上的微调策略，例如基于该数据集的对话状态跟踪模型优化与评估框架的构建。部分研究利用其丰富的领域标注探索了跨领域对话迁移学习的方法。同时，该数据集也常被用作基准，用于比较不同神经网络架构在复杂任务对话生成与理解任务上的性能，推动了对话系统评估指标的完善与标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集