Brendan/icdst_multiwoz_turns_v24
收藏Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/icdst_multiwoz_turns_v24
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: dialogue_id
dtype: string
- name: turn_id
dtype: int8
- name: domains
sequence: string
- name: user_utterances
sequence: string
- name: system_utterances
sequence: string
- name: slot_values
struct:
- name: hotel
struct:
- name: price range
dtype: string
- name: type
dtype: string
- name: parking
dtype: string
- name: book day
dtype: string
- name: book people
dtype: string
- name: book stay
dtype: string
- name: stars
dtype: string
- name: internet
dtype: string
- name: name
dtype: string
- name: area
dtype: string
- name: train
struct:
- name: arrive by
dtype: string
- name: departure
dtype: string
- name: day
dtype: string
- name: book people
dtype: string
- name: leave at
dtype: string
- name: destination
dtype: string
- name: attraction
struct:
- name: area
dtype: string
- name: name
dtype: string
- name: type
dtype: string
- name: restaurant
struct:
- name: price range
dtype: string
- name: area
dtype: string
- name: food
dtype: string
- name: name
dtype: string
- name: book day
dtype: string
- name: book people
dtype: string
- name: book time
dtype: string
- name: taxi
struct:
- name: leave at
dtype: string
- name: destination
dtype: string
- name: departure
dtype: string
- name: arrive by
dtype: string
- name: turn_slot_values
struct:
- name: hotel
struct:
- name: price range
dtype: string
- name: type
dtype: string
- name: parking
dtype: string
- name: book day
dtype: string
- name: book people
dtype: string
- name: book stay
dtype: string
- name: stars
dtype: string
- name: internet
dtype: string
- name: name
dtype: string
- name: area
dtype: string
- name: train
struct:
- name: arrive by
dtype: string
- name: departure
dtype: string
- name: day
dtype: string
- name: book people
dtype: string
- name: leave at
dtype: string
- name: destination
dtype: string
- name: attraction
struct:
- name: area
dtype: string
- name: name
dtype: string
- name: type
dtype: string
- name: restaurant
struct:
- name: price range
dtype: string
- name: area
dtype: string
- name: food
dtype: string
- name: name
dtype: string
- name: book day
dtype: string
- name: book people
dtype: string
- name: book time
dtype: string
- name: taxi
struct:
- name: leave at
dtype: string
- name: destination
dtype: string
- name: departure
dtype: string
- name: arrive by
dtype: string
- name: last_slot_values
struct:
- name: hotel
struct:
- name: price range
dtype: string
- name: type
dtype: string
- name: parking
dtype: string
- name: book day
dtype: string
- name: book people
dtype: string
- name: book stay
dtype: string
- name: stars
dtype: string
- name: internet
dtype: string
- name: name
dtype: string
- name: area
dtype: string
- name: train
struct:
- name: arrive by
dtype: string
- name: departure
dtype: string
- name: day
dtype: string
- name: book people
dtype: string
- name: leave at
dtype: string
- name: destination
dtype: string
- name: attraction
struct:
- name: area
dtype: string
- name: name
dtype: string
- name: type
dtype: string
- name: restaurant
struct:
- name: price range
dtype: string
- name: area
dtype: string
- name: food
dtype: string
- name: name
dtype: string
- name: book day
dtype: string
- name: book people
dtype: string
- name: book time
dtype: string
- name: taxi
struct:
- name: leave at
dtype: string
- name: destination
dtype: string
- name: departure
dtype: string
- name: arrive by
dtype: string
- name: system_response_acts
sequence: string
- name: system_response
dtype: string
splits:
- name: train
num_bytes: 78112115
num_examples: 54971
- name: validation
num_bytes: 10725891
num_examples: 7374
- name: test
num_bytes: 10734111
num_examples: 7368
- name: valid_20p_ablation
num_bytes: 2104741.561838893
num_examples: 1447
- name: valid_10p
num_bytes: 1063279.9458909682
num_examples: 731
- name: valid_50p
num_bytes: 5378945.608624898
num_examples: 3698
- name: 1p_train_v1
num_bytes: 744588.0238671299
num_examples: 524
- name: 1p_train_v2
num_bytes: 741746.0848447363
num_examples: 522
- name: 1p_train_v3
num_bytes: 822741.3469829547
num_examples: 579
- name: 5p_train_v1
num_bytes: 3880667.735078496
num_examples: 2731
- name: 5p_train_v2
num_bytes: 3913350.0338360225
num_examples: 2754
- name: 5p_train_v3
num_bytes: 3806777.3204962616
num_examples: 2679
- name: 10p_train_v1
num_bytes: 7786912.921358534
num_examples: 5480
- name: 10p_train_v2
num_bytes: 7785491.951847338
num_examples: 5479
- name: 10p_train_v3
num_bytes: 7691707.964108348
num_examples: 5413
download_size: 6875945
dataset_size: 145293067.4987746
---
# Dataset Card for "icdst_multiwoz_turns_v24"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Brendan
原始信息汇总
数据集概述
数据集信息
特征
- dialogue_id: 对话ID,数据类型为字符串。
- turn_id: 对话轮次ID,数据类型为整数。
- domains: 领域,数据类型为字符串序列。
- user_utterances: 用户话语,数据类型为字符串序列。
- system_utterances: 系统话语,数据类型为字符串序列。
- slot_values: 槽值,数据类型为结构体,包含以下子结构:
- hotel: 酒店信息,包含以下字段:
- price range: 价格范围,数据类型为字符串。
- type: 类型,数据类型为字符串。
- parking: 停车信息,数据类型为字符串。
- book day: 预订日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- book stay: 预订住宿,数据类型为字符串。
- stars: 星级,数据类型为字符串。
- internet: 互联网,数据类型为字符串。
- name: 名称,数据类型为字符串。
- area: 区域,数据类型为字符串。
- train: 火车信息,包含以下字段:
- arrive by: 到达时间,数据类型为字符串。
- departure: 出发地,数据类型为字符串。
- day: 日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- leave at: 离开时间,数据类型为字符串。
- destination: 目的地,数据类型为字符串。
- attraction: 景点信息,包含以下字段:
- area: 区域,数据类型为字符串。
- name: 名称,数据类型为字符串。
- type: 类型,数据类型为字符串。
- restaurant: 餐厅信息,包含以下字段:
- price range: 价格范围,数据类型为字符串。
- area: 区域,数据类型为字符串。
- food: 食物类型,数据类型为字符串。
- name: 名称,数据类型为字符串。
- book day: 预订日期,数据类型为字符串。
- book people: 预订人数,数据类型为字符串。
- book time: 预订时间,数据类型为字符串。
- taxi: 出租车信息,包含以下字段:
- leave at: 离开时间,数据类型为字符串。
- destination: 目的地,数据类型为字符串。
- departure: 出发地,数据类型为字符串。
- arrive by: 到达时间,数据类型为字符串。
- hotel: 酒店信息,包含以下字段:
- turn_slot_values: 轮次槽值,数据类型为结构体,包含与slot_values相同的子结构。
- last_slot_values: 上一轮槽值,数据类型为结构体,包含与slot_values相同的子结构。
- system_response_acts: 系统响应动作,数据类型为字符串序列。
- system_response: 系统响应,数据类型为字符串。
数据集划分
- train: 训练集,包含78,112,115字节,54,971个样本。
- validation: 验证集,包含10,725,891字节,7,374个样本。
- test: 测试集,包含10,734,111字节,7,368个样本。
- valid_20p_ablation: 验证集(20% ablation),包含2,104,741.561838893字节,1,447个样本。
- valid_10p: 验证集(10%),包含1,063,279.9458909682字节,731个样本。
- valid_50p: 验证集(50%),包含5,378,945.608624898字节,3,698个样本。
- 1p_train_v1: 训练集(1% v1),包含744,588.0238671299字节,524个样本。
- 1p_train_v2: 训练集(1% v2),包含741,746.0848447363字节,522个样本。
- 1p_train_v3: 训练集(1% v3),包含822,741.3469829547字节,579个样本。
- 5p_train_v1: 训练集(5% v1),包含3,880,667.735078496字节,2,731个样本。
- 5p_train_v2: 训练集(5% v2),包含3,913,350.0338360225字节,2,754个样本。
- 5p_train_v3: 训练集(5% v3),包含3,806,777.3204962616字节,2,679个样本。
- 10p_train_v1: 训练集(10% v1),包含7,786,912.921358534字节,5,480个样本。
- 10p_train_v2: 训练集(10% v2),包含7,785,491.951847338字节,5,479个样本。
- 10p_train_v3: 训练集(10% v3),包含7,691,707.964108348字节,5,413个样本。
数据集大小
- download_size: 下载大小为6,875,945字节。
- dataset_size: 数据集大小为145,293,067.4987746字节。



