google-research-datasets/taskmaster3

Name: google-research-datasets/taskmaster3
Creator: google-research-datasets
Published: 2024-01-18 11:16:47
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/taskmaster3

下载链接

链接失效反馈

官方服务：

资源简介：

Taskmaster-3数据集是一个面向目标导向对话的数据集，包含23,757个电影票务对话。这些对话是通过‘自我对话’方法创建的，即由单个众包工作者编写对话双方的发言。数据集的结构包括对话ID、指令、场景、发言列表等字段，每个发言又包含索引、发言者、文本、API调用等信息。数据集的语言为英语，且所有对话的垂直领域均为‘电影票务’。

提供机构：

google-research-datasets

原始信息汇总

数据集卡片 for taskmaster3

数据集描述

数据集摘要

Taskmaster-3 数据集包含 23,757 个电影票务对话。这些对话涉及客户在决定剧院、时间、电影名称、票数和日期后购买电影票，或选择退出交易。该数据集使用“自我对话”方法创建，即由单个众包工作者编写对话双方的发言。

支持的任务和排行榜

[更多信息待补充]

语言

数据集使用英语。

数据集结构

数据实例

一个典型的数据实例如下：

json { "conversation_id": "dlg-ddee80da-9ffa-4773-9ce7-f73f727cb79c", "instructions": "SCENARIO: Pretend you’re using a digital assistant to purchase tickets for a movie currently showing in theaters. ...", "scenario": "4 exchanges with 1 error and predefined variables", "utterances": [ { "apis": [], "index": 0, "segments": [ { "annotations": [ { "name": "num.tickets" } ], "end_index": 21, "start_index": 20, "text": "2" }, { "annotations": [ { "name": "name.movie" } ], "end_index": 42, "start_index": 37, "text": "Mulan" } ], "speaker": "user", "text": "I would like to buy 2 tickets to see Mulan." }, { "index": 6, "segments": [], "speaker": "user", "text": "Yes.", "apis": [ { "args": [ { "arg_name": "name.movie", "arg_value": "Mulan" }, { "arg_name": "name.theater", "arg_value": "Mountain AMC 16" } ], "index": 6, "name": "book_tickets", "response": [ { "response_name": "status", "response_value": "success" } ] } ] } ], "vertical": "Movie Tickets" }

数据字段

每个对话包含以下字段：

conversation_id: 唯一标识符，前缀为 dlg-。
utterances: 构成对话的 utterance 列表。
instructions: 创建对话时给众包工作者的指示。
vertical: 所有对话的垂直领域为 "Movie Tickets"。
scenario: 每个对话的指示标题。

每个 utterance 包含以下字段：

index: 0 基索引，表示 utterance 在对话中的顺序。
speaker: 发言者角色，USER 或 ASSISTANT。
text: utterance 的原始文本。
segments: 带有语义注释的文本片段列表。
apis: 在 utterance 期间调用的 API 数组。

每个 API 包含以下结构：

name: 调用的 API 名称。
index: 父 utterance 的索引。
args: 包含 arg_name 和 arg_value 的列表，表示参数名称和值。
response: 包含 response_name 和 response_value 的列表，表示响应名称和值。

每个 segment 包含以下字段：

start_index: 注释在 utterance 文本中的起始位置。
end_index: 注释在 utterance 文本中的结束位置。
text: 被注释的原始文本。
annotations: 该 segment 的注释详情列表。

每个 annotation 包含一个字段：

name: 注释名称。

数据分割

数据集没有默认分割，以下表格列出了每个配置的实例数量：

	Train
n_instances	23757

数据集创建

策划理由

[更多信息待补充]

源数据

[更多信息待补充]

注释

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

数据集在 Creative Commons Attribution 4.0 License 下许可。

引用信息

[更多信息待补充]

贡献

感谢 @patil-suraj 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集