five

google-research-datasets/taskmaster3

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/taskmaster3
下载链接
链接失效反馈
官方服务:
资源简介:
Taskmaster-3数据集是一个面向目标导向对话的数据集,包含23,757个电影票务对话。这些对话是通过‘自我对话’方法创建的,即由单个众包工作者编写对话双方的发言。数据集的结构包括对话ID、指令、场景、发言列表等字段,每个发言又包含索引、发言者、文本、API调用等信息。数据集的语言为英语,且所有对话的垂直领域均为‘电影票务’。
提供机构:
google-research-datasets
原始信息汇总

数据集卡片 for taskmaster3

数据集描述

数据集摘要

Taskmaster-3 数据集包含 23,757 个电影票务对话。这些对话涉及客户在决定剧院、时间、电影名称、票数和日期后购买电影票,或选择退出交易。该数据集使用“自我对话”方法创建,即由单个众包工作者编写对话双方的发言。

支持的任务和排行榜

[更多信息待补充]

语言

数据集使用英语。

数据集结构

数据实例

一个典型的数据实例如下:

json { "conversation_id": "dlg-ddee80da-9ffa-4773-9ce7-f73f727cb79c", "instructions": "SCENARIO: Pretend you’re using a digital assistant to purchase tickets for a movie currently showing in theaters. ...", "scenario": "4 exchanges with 1 error and predefined variables", "utterances": [ { "apis": [], "index": 0, "segments": [ { "annotations": [ { "name": "num.tickets" } ], "end_index": 21, "start_index": 20, "text": "2" }, { "annotations": [ { "name": "name.movie" } ], "end_index": 42, "start_index": 37, "text": "Mulan" } ], "speaker": "user", "text": "I would like to buy 2 tickets to see Mulan." }, { "index": 6, "segments": [], "speaker": "user", "text": "Yes.", "apis": [ { "args": [ { "arg_name": "name.movie", "arg_value": "Mulan" }, { "arg_name": "name.theater", "arg_value": "Mountain AMC 16" } ], "index": 6, "name": "book_tickets", "response": [ { "response_name": "status", "response_value": "success" } ] } ] } ], "vertical": "Movie Tickets" }

数据字段

每个对话包含以下字段:

  • conversation_id: 唯一标识符,前缀为 dlg-。
  • utterances: 构成对话的 utterance 列表。
  • instructions: 创建对话时给众包工作者的指示。
  • vertical: 所有对话的垂直领域为 "Movie Tickets"。
  • scenario: 每个对话的指示标题。

每个 utterance 包含以下字段:

  • index: 0 基索引,表示 utterance 在对话中的顺序。
  • speaker: 发言者角色,USER 或 ASSISTANT。
  • text: utterance 的原始文本。
  • segments: 带有语义注释的文本片段列表。
  • apis: 在 utterance 期间调用的 API 数组。

每个 API 包含以下结构:

  • name: 调用的 API 名称。
  • index: 父 utterance 的索引。
  • args: 包含 arg_namearg_value 的列表,表示参数名称和值。
  • response: 包含 response_nameresponse_value 的列表,表示响应名称和值。

每个 segment 包含以下字段:

  • start_index: 注释在 utterance 文本中的起始位置。
  • end_index: 注释在 utterance 文本中的结束位置。
  • text: 被注释的原始文本。
  • annotations: 该 segment 的注释详情列表。

每个 annotation 包含一个字段:

  • name: 注释名称。

数据分割

数据集没有默认分割,以下表格列出了每个配置的实例数量:

Train
n_instances 23757

数据集创建

策划理由

[更多信息待补充]

源数据

[更多信息待补充]

注释

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

数据集在 Creative Commons Attribution 4.0 License 下许可。

引用信息

[更多信息待补充]

贡献

感谢 @patil-suraj 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作