Brendan/multiwoz_turns_v22_test_set_partitioned
收藏Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/multiwoz_turns_v22_test_set_partitioned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个对话的详细信息,每个对话都有唯一的对话ID和轮次ID。数据集涵盖了多个领域,如酒店、火车、景点、餐厅、医院、出租车、公交车和警察等。每个对话包含系统发言和用户发言,并且记录了每个领域的槽位值。数据集被分割为多个测试集,每个测试集都有对应的字节大小和示例数量。
该数据集包含多个对话的详细信息,每个对话都有唯一的对话ID和轮次ID。数据集涵盖了多个领域,如酒店、火车、景点、餐厅、医院、出租车、公交车和警察等。每个对话包含系统发言和用户发言,并且记录了每个领域的槽位值。数据集被分割为多个测试集,每个测试集都有对应的字节大小和示例数量。
提供机构:
Brendan
原始信息汇总
数据集概述
数据集特征
数据集包含以下特征:
- dialogue_id: 对话ID,数据类型为字符串。
- turn_id: 对话轮次ID,数据类型为整数。
- domains: 领域,数据类型为字符串序列。
- system_utterances: 系统话语,数据类型为字符串序列。
- user_utterances: 用户话语,数据类型为字符串序列。
- slot_values: 槽值,数据类型为结构体,包含以下子结构:
- hotel: 酒店相关槽值,包含以下字段:
- price range: 价格范围,数据类型为字符串。
- type: 类型,数据类型为字符串。
- parking: 停车,数据类型为字符串。
- book day: 预订日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- book stay: 预订住宿,数据类型为字符串。
- stars: 星级,数据类型为字符串。
- internet: 互联网,数据类型为字符串。
- name: 名称,数据类型为字符串。
- area: 区域,数据类型为字符串。
- train: 火车相关槽值,包含以下字段:
- arrive by: 到达时间,数据类型为字符串。
- departure: 出发地,数据类型为字符串。
- day: 日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- leave at: 离开时间,数据类型为字符串。
- destination: 目的地,数据类型为字符串。
- attraction: 景点相关槽值,包含以下字段:
- area: 区域,数据类型为字符串。
- name: 名称,数据类型为字符串。
- type: 类型,数据类型为字符串。
- restaurant: 餐厅相关槽值,包含以下字段:
- price range: 价格范围,数据类型为字符串。
- area: 区域,数据类型为字符串。
- food: 食物,数据类型为字符串。
- name: 名称,数据类型为字符串。
- book day: 预订日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- book time: 预订时间,数据类型为字符串。
- hospital: 医院相关槽值,包含以下字段:
- department: 科室,数据类型为字符串。
- taxi: 出租车相关槽值,包含以下字段:
- leave at: 离开时间,数据类型为字符串。
- destination: 目的地,数据类型为字符串。
- departure: 出发地,数据类型为字符串。
- arrive by: 到达时间,数据类型为字符串。
- bus: 公交车相关槽值,包含以下字段:
- departure: 出发地,数据类型为字符串。
- destination: 目的地,数据类型为字符串。
- leave at: 离开时间,数据类型为字符串。
- day: 日期,数据类型为字符串。
- police: 警察相关槽值,包含以下字段:
- name: 名称,数据类型为字符串。
- hotel: 酒店相关槽值,包含以下字段:
- turn_slot_values: 轮次槽值,数据类型为结构体,包含与slot_values相同的子结构。
- last_slot_values: 上一轮次槽值,数据类型为结构体,包含与slot_values相同的子结构。
- last_system_response_acts: 上一轮次系统响应动作,数据类型为字符串序列。
- system_response_acts: 系统响应动作,数据类型为字符串序列。
- system_response: 系统响应,数据类型为字符串。
数据集分割
数据集包含以下分割:
- test_0_50: 374个样本,573034.9669017906字节。
- test_50_100: 355个样本,543923.5648399349字节。
- test_100_150: 365个样本,559245.3553988063字节。
- test_150_200: 371个样本,568438.4297341291字节。
- test_200_250: 363个样本,556180.997287032字节。
- test_250_300: 367个样本,562309.7135105806字节。
- test_300_350: 372个样本,569970.6087900163字节。
- test_350_400: 362个样本,554648.8182311449字节。
- test_400_450: 343个样本,525537.4161692892字节。
- test_450_500: 364个样本,557713.1763429191字节。
- test_500_550: 389个样本,596017.6527400977字节。
- test_550_600: 383个样本,586824.5784047748字节。
- test_600_650: 380个样本,582228.0412371134字节。
- test_650_700: 389个样本,596017.6527400977字节。
- test_700_750: 380个样本,582228.0412371134字节。
- test_750_800: 337个样本,516344.3418339664字节。
- test_800_850: 370个样本,566906.250678242字节。
- test_850_900: 389个样本,596017.6527400977字节。
- test_900_950: 365个样本,559245.3553988063字节。
- test_950_1000: 354个样本,542391.3857840478字节。
数据集大小
- 下载大小: 2801791字节。
- 数据集大小: 11295224.0字节。
配置
- config_name: default
- data_files:
- test_0_50: data/test_0_50-*
- test_50_100: data/test_50_100-*
- test_100_150: data/test_100_150-*
- test_150_200: data/test_150_200-*
- test_200_250: data/test_200_250-*
- test_250_300: data/test_250_300-*
- test_300_350: data/test_300_350-*
- test_350_400: data/test_350_400-*
- test_400_450: data/test_400_450-*
- test_450_500: data/test_450_500-*
- test_500_550: data/test_500_550-*
- test_550_600: data/test_550_600-*
- test_600_650: data/test_600_650-*
- test_650_700: data/test_650_700-*
- test_700_750: data/test_700_750-*
- test_750_800: data/test_750_800-*
- test_800_850: data/test_800_850-*
- test_850_900: data/test_850_900-*
- test_900_950: data/test_900_950-*
- test_950_1000: data/test_950_1000-*
- data_files:



