google-research-datasets/taskmaster2
收藏数据集卡片:Taskmaster-2
数据集描述
数据集概述
Taskmaster-2 数据集包含 17,289 个对话,涵盖七个领域:餐厅、食品订购、电影、酒店、航班、音乐和体育。与 Taskmaster-1 不同,Taskmaster-2 完全由两人对话组成,并且包含更多搜索和推荐导向的对话。所有对话均采用 Wizard of Oz (WOz) 方法创建,其中众包工作者扮演“用户”角色,训练有素的呼叫中心操作员扮演“助手”角色。
支持的任务和排行榜
[更多信息需补充]
语言
数据集使用英语。
数据集结构
数据实例
一个典型的数据实例如下:
json { "conversation_id": "dlg-0047a087-6a3c-4f27-b0e6-268f53a2e013", "instruction_id": "flight-6", "utterances": [ { "index": 0, "segments": [], "speaker": "USER", "text": "Hi, Im looking for a flight. I need to visit a friend." }, { "index": 1, "segments": [], "speaker": "ASSISTANT", "text": "Hello, how can I help you?" }, { "index": 2, "segments": [], "speaker": "ASSISTANT", "text": "Sure, I can help you with that." }, { "index": 3, "segments": [], "speaker": "ASSISTANT", "text": "On what dates?" }, { "index": 4, "segments": [ { "annotations": [ { "name": "flight_search.date.depart_origin" } ], "end_index": 37, "start_index": 27, "text": "March 20th" }, { "annotations": [ { "name": "flight_search.date.return" } ], "end_index": 45, "start_index": 41, "text": "22nd" } ], "speaker": "USER", "text": "Im looking to travel from March 20th to 22nd." } ] }
数据字段
每个对话包含以下字段:
conversation_id: 唯一标识符,前缀为 dlg-。utterances: 构成对话的语句列表。instruction_id: 引用包含用户(和适用情况下代理)指令的文件。
每个语句包含以下字段:
index: 语句在对话中的顺序索引(从0开始)。speaker: 标识生成该语句的角色,为 USER 或 ASSISTANT。text: 语句的原始文本。segments: 带有语义注释的文本片段列表。
每个片段包含以下字段:
start_index: 注释在语句文本中的起始位置。end_index: 注释在语句文本中的结束位置。text: 被注释的原始文本。annotations: 该片段的注释详情列表。
每个注释包含一个字段:
name: 注释名称。
数据分割
数据集没有默认分割,以下是每个配置的训练集示例数量:
| 配置 | 训练集 |
|---|---|
| flights | 2481 |
| food-ordering | 1050 |
| hotels | 2357 |
| movies | 3056 |
| music | 1603 |
| restaurant-search | 3276 |
| sports | 3481 |
数据集创建
策划理由
[更多信息需补充]
源数据
[更多信息需补充]
注释
[更多信息需补充]
使用数据集的注意事项
数据集的社会影响
[更多信息需补充]
偏见讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
[更多信息需补充]
许可信息
数据集遵循 Creative Commons Attribution 4.0 License 许可。
引用信息
[更多信息需补充]
贡献
感谢 @patil-suraj 添加此数据集。




