google-research-datasets/taskmaster3
收藏数据集卡片 for taskmaster3
数据集描述
数据集摘要
Taskmaster-3 数据集包含 23,757 个电影票务对话。这些对话涉及客户在决定剧院、时间、电影名称、票数和日期后购买电影票,或选择退出交易。该数据集使用“自我对话”方法创建,即由单个众包工作者编写对话双方的发言。
支持的任务和排行榜
[更多信息待补充]
语言
数据集使用英语。
数据集结构
数据实例
一个典型的数据实例如下:
json { "conversation_id": "dlg-ddee80da-9ffa-4773-9ce7-f73f727cb79c", "instructions": "SCENARIO: Pretend you’re using a digital assistant to purchase tickets for a movie currently showing in theaters. ...", "scenario": "4 exchanges with 1 error and predefined variables", "utterances": [ { "apis": [], "index": 0, "segments": [ { "annotations": [ { "name": "num.tickets" } ], "end_index": 21, "start_index": 20, "text": "2" }, { "annotations": [ { "name": "name.movie" } ], "end_index": 42, "start_index": 37, "text": "Mulan" } ], "speaker": "user", "text": "I would like to buy 2 tickets to see Mulan." }, { "index": 6, "segments": [], "speaker": "user", "text": "Yes.", "apis": [ { "args": [ { "arg_name": "name.movie", "arg_value": "Mulan" }, { "arg_name": "name.theater", "arg_value": "Mountain AMC 16" } ], "index": 6, "name": "book_tickets", "response": [ { "response_name": "status", "response_value": "success" } ] } ] } ], "vertical": "Movie Tickets" }
数据字段
每个对话包含以下字段:
conversation_id: 唯一标识符,前缀为 dlg-。utterances: 构成对话的 utterance 列表。instructions: 创建对话时给众包工作者的指示。vertical: 所有对话的垂直领域为 "Movie Tickets"。scenario: 每个对话的指示标题。
每个 utterance 包含以下字段:
index: 0 基索引,表示 utterance 在对话中的顺序。speaker: 发言者角色,USER 或 ASSISTANT。text: utterance 的原始文本。segments: 带有语义注释的文本片段列表。apis: 在 utterance 期间调用的 API 数组。
每个 API 包含以下结构:
name: 调用的 API 名称。index: 父 utterance 的索引。args: 包含arg_name和arg_value的列表,表示参数名称和值。response: 包含response_name和response_value的列表,表示响应名称和值。
每个 segment 包含以下字段:
start_index: 注释在 utterance 文本中的起始位置。end_index: 注释在 utterance 文本中的结束位置。text: 被注释的原始文本。annotations: 该 segment 的注释详情列表。
每个 annotation 包含一个字段:
name: 注释名称。
数据分割
数据集没有默认分割,以下表格列出了每个配置的实例数量:
| Train | |
|---|---|
| n_instances | 23757 |
数据集创建
策划理由
[更多信息待补充]
源数据
[更多信息待补充]
注释
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见的讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策展人
[更多信息待补充]
许可信息
数据集在 Creative Commons Attribution 4.0 License 下许可。
引用信息
[更多信息待补充]
贡献
感谢 @patil-suraj 添加此数据集。



