Brendan/icdst_multiwoz_turns_v21

Name: Brendan/icdst_multiwoz_turns_v21
Creator: Brendan
Published: 2023-10-25 21:41:45
License: 暂无描述

Hugging Face2023-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Brendan/icdst_multiwoz_turns_v21

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多领域对话数据集，包含酒店、火车、景点、餐厅和出租车等多个领域的对话信息。每个对话都有唯一的标识符和轮次信息，记录了用户和系统的话语内容。数据集还详细记录了每个领域的属性信息，如酒店的价格范围、类型、停车信息等，火车的到达时间、出发时间等。数据集的划分包括训练集、验证集和测试集，每个部分都有对应的字节大小和样本数量。

提供机构：

Brendan

原始信息汇总

数据集概述

数据集特征

数据集包含以下特征：

dialogue_id: 对话ID，数据类型为字符串。
turn_id: 回合ID，数据类型为整数。
domains: 领域，数据类型为字符串序列。
user_utterances: 用户话语，数据类型为字符串序列。
system_utterances: 系统话语，数据类型为字符串序列。
slot_values: 槽值，数据类型为结构体，包含以下子结构：
- hotel: 酒店信息，包含以下字段：
  - price range: 价格范围，数据类型为字符串。
  - type: 类型，数据类型为字符串。
  - parking: 停车，数据类型为字符串。
  - book day: 预订日期，数据类型为字符串。
  - book people: 预订人数，数据类型为字符串。
  - book stay: 预订住宿，数据类型为字符串。
  - stars: 星级，数据类型为字符串。
  - internet: 互联网，数据类型为字符串。
  - name: 名称，数据类型为字符串。
  - area: 区域，数据类型为字符串。
- train: 火车信息，包含以下字段：
  - arrive by: 到达时间，数据类型为字符串。
  - departure: 出发地，数据类型为字符串。
  - day: 日期，数据类型为字符串。
  - book people: 预订人数，数据类型为字符串。
  - leave at: 离开时间，数据类型为字符串。
  - destination: 目的地，数据类型为字符串。
- attraction: 景点信息，包含以下字段：
  - area: 区域，数据类型为字符串。
  - name: 名称，数据类型为字符串。
  - type: 类型，数据类型为字符串。
- restaurant: 餐厅信息，包含以下字段：
  - price range: 价格范围，数据类型为字符串。
  - area: 区域，数据类型为字符串。
  - food: 食物，数据类型为字符串。
  - name: 名称，数据类型为字符串。
  - book day: 预订日期，数据类型为字符串。
  - book people: 预订人数，数据类型为字符串。
  - book time: 预订时间，数据类型为字符串。
- taxi: 出租车信息，包含以下字段：
  - leave at: 离开时间，数据类型为字符串。
  - destination: 目的地，数据类型为字符串。
  - departure: 出发地，数据类型为字符串。
  - arrive by: 到达时间，数据类型为字符串。
turn_slot_values: 回合槽值，数据类型为结构体，结构与slot_values相同。
last_slot_values: 最后一个回合的槽值，数据类型为结构体，结构与slot_values相同。
system_response_acts: 系统响应动作，数据类型为字符串序列。
system_response: 系统响应，数据类型为字符串。

数据集分割

数据集包含以下分割：

train: 训练集，包含54971个样本，大小为78112115字节。
validation: 验证集，包含7374个样本，大小为10681377字节。
test: 测试集，包含7368个样本，大小为10711425字节。
valid_20p_ablation: 验证集（20%），包含1447个样本，大小为2096006.5797396258字节。
valid_10p: 验证集（10%），包含731个样本，大小为1058867.1802278275字节。
valid_50p: 验证集（50%），包含3698个样本，大小为5356622.2058584215字节。
1p_train_v1: 训练集（1%），包含524个样本，大小为744588.0238671299字节。
1p_train_v2: 训练集（1%），包含522个样本，大小为741746.0848447363字节。
1p_train_v3: 训练集（1%），包含579个样本，大小为822741.3469829547字节。
5p_train_v1: 训练集（5%），包含2731个样本，大小为3880667.735078496字节。
5p_train_v2: 训练集（5%），包含2754个样本，大小为3913350.0338360225字节。
5p_train_v3: 训练集（5%），包含2679个样本，大小为3806777.3204962616字节。
10p_train_v1: 训练集（10%），包含5480个样本，大小为7786912.921358534字节。
10p_train_v2: 训练集（10%），包含5479个样本，大小为7785491.951847338字节。
10p_train_v3: 训练集（10%），包含5413个样本，大小为7691707.964108348字节。

数据集大小

下载大小: 6866897字节。
数据集大小: 145190396.3482457字节。

5,000+

优质数据集

54 个

任务类型

进入经典数据集