Brendan/icdst_multiwoz_turns_v21
收藏Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/icdst_multiwoz_turns_v21
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多领域对话数据集,包含酒店、火车、景点、餐厅和出租车等多个领域的对话信息。每个对话都有唯一的标识符和轮次信息,记录了用户和系统的话语内容。数据集还详细记录了每个领域的属性信息,如酒店的价格范围、类型、停车信息等,火车的到达时间、出发时间等。数据集的划分包括训练集、验证集和测试集,每个部分都有对应的字节大小和样本数量。
提供机构:
Brendan
原始信息汇总
数据集概述
数据集特征
数据集包含以下特征:
- dialogue_id: 对话ID,数据类型为字符串。
- turn_id: 回合ID,数据类型为整数。
- domains: 领域,数据类型为字符串序列。
- user_utterances: 用户话语,数据类型为字符串序列。
- system_utterances: 系统话语,数据类型为字符串序列。
- slot_values: 槽值,数据类型为结构体,包含以下子结构:
- hotel: 酒店信息,包含以下字段:
- price range: 价格范围,数据类型为字符串。
- type: 类型,数据类型为字符串。
- parking: 停车,数据类型为字符串。
- book day: 预订日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- book stay: 预订住宿,数据类型为字符串。
- stars: 星级,数据类型为字符串。
- internet: 互联网,数据类型为字符串。
- name: 名称,数据类型为字符串。
- area: 区域,数据类型为字符串。
- train: 火车信息,包含以下字段:
- arrive by: 到达时间,数据类型为字符串。
- departure: 出发地,数据类型为字符串。
- day: 日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- leave at: 离开时间,数据类型为字符串。
- destination: 目的地,数据类型为字符串。
- attraction: 景点信息,包含以下字段:
- area: 区域,数据类型为字符串。
- name: 名称,数据类型为字符串。
- type: 类型,数据类型为字符串。
- restaurant: 餐厅信息,包含以下字段:
- price range: 价格范围,数据类型为字符串。
- area: 区域,数据类型为字符串。
- food: 食物,数据类型为字符串。
- name: 名称,数据类型为字符串。
- book day: 预订日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- book time: 预订时间,数据类型为字符串。
- taxi: 出租车信息,包含以下字段:
- leave at: 离开时间,数据类型为字符串。
- destination: 目的地,数据类型为字符串。
- departure: 出发地,数据类型为字符串。
- arrive by: 到达时间,数据类型为字符串。
- hotel: 酒店信息,包含以下字段:
- turn_slot_values: 回合槽值,数据类型为结构体,结构与slot_values相同。
- last_slot_values: 最后一个回合的槽值,数据类型为结构体,结构与slot_values相同。
- system_response_acts: 系统响应动作,数据类型为字符串序列。
- system_response: 系统响应,数据类型为字符串。
数据集分割
数据集包含以下分割:
- train: 训练集,包含54971个样本,大小为78112115字节。
- validation: 验证集,包含7374个样本,大小为10681377字节。
- test: 测试集,包含7368个样本,大小为10711425字节。
- valid_20p_ablation: 验证集(20%),包含1447个样本,大小为2096006.5797396258字节。
- valid_10p: 验证集(10%),包含731个样本,大小为1058867.1802278275字节。
- valid_50p: 验证集(50%),包含3698个样本,大小为5356622.2058584215字节。
- 1p_train_v1: 训练集(1%),包含524个样本,大小为744588.0238671299字节。
- 1p_train_v2: 训练集(1%),包含522个样本,大小为741746.0848447363字节。
- 1p_train_v3: 训练集(1%),包含579个样本,大小为822741.3469829547字节。
- 5p_train_v1: 训练集(5%),包含2731个样本,大小为3880667.735078496字节。
- 5p_train_v2: 训练集(5%),包含2754个样本,大小为3913350.0338360225字节。
- 5p_train_v3: 训练集(5%),包含2679个样本,大小为3806777.3204962616字节。
- 10p_train_v1: 训练集(10%),包含5480个样本,大小为7786912.921358534字节。
- 10p_train_v2: 训练集(10%),包含5479个样本,大小为7785491.951847338字节。
- 10p_train_v3: 训练集(10%),包含5413个样本,大小为7691707.964108348字节。
数据集大小
- 下载大小: 6866897字节。
- 数据集大小: 145190396.3482457字节。



