Brendan/multiwoz_turns_v22_partitioned

Name: Brendan/multiwoz_turns_v22_partitioned
Creator: Brendan
Published: 2024-01-25 07:22:26
License: 暂无描述

Hugging Face2024-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Brendan/multiwoz_turns_v22_partitioned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个对话，每个对话具有唯一的对话ID和轮次ID。对话涉及多个领域，如酒店、火车、景点、餐厅、医院、出租车、公交车和警察等。每个对话包含系统话语和用户话语，并且每个领域都有相应的槽位值。数据集被分为多个训练集子集，每个子集包含不同数量的字节和示例。数据集的下载大小为22147174字节，总大小为83665769.0字节。

提供机构：

Brendan

原始信息汇总

数据集概述

数据集特征

基本特征

dialogue_id: 对话ID，数据类型为字符串。
turn_id: 对话轮次ID，数据类型为整数（int8）。
domains: 领域列表，数据类型为字符串序列。
system_utterances: 系统话语列表，数据类型为字符串序列。
user_utterances: 用户话语列表，数据类型为字符串序列。
slot_values: 槽值结构，包含多个领域及其对应的槽值。

槽值结构

hotel: 酒店领域
- price range: 价格范围，数据类型为字符串。
- type: 类型，数据类型为字符串。
- parking: 停车设施，数据类型为字符串。
- book day: 预订日期，数据类型为字符串。
- book people: 预订人数，数据类型为字符串。
- book stay: 预订住宿时长，数据类型为字符串。
- stars: 星级，数据类型为字符串。
- internet: 网络服务，数据类型为字符串。
- name: 名称，数据类型为字符串。
- area: 区域，数据类型为字符串。
train: 火车领域
- arrive by: 到达时间，数据类型为字符串。
- departure: 出发地，数据类型为字符串。
- day: 日期，数据类型为字符串。
- book people: 预订人数，数据类型为字符串。
- leave at: 离开时间，数据类型为字符串。
- destination: 目的地，数据类型为字符串。
attraction: 景点领域
- area: 区域，数据类型为字符串。
- name: 名称，数据类型为字符串。
- type: 类型，数据类型为字符串。
restaurant: 餐厅领域
- price range: 价格范围，数据类型为字符串。
- area: 区域，数据类型为字符串。
- food: 食物类型，数据类型为字符串。
- name: 名称，数据类型为字符串。
- book day: 预订日期，数据类型为字符串。
- book people: 预订人数，数据类型为字符串。
- book time: 预订时间，数据类型为字符串。
hospital: 医院领域
- department: 科室，数据类型为字符串。
taxi: 出租车领域
- leave at: 离开时间，数据类型为字符串。
- destination: 目的地，数据类型为字符串。
- departure: 出发地，数据类型为字符串。
- arrive by: 到达时间，数据类型为字符串。
bus: 巴士领域
- departure: 出发地，数据类型为字符串。
- destination: 目的地，数据类型为字符串。
- leave at: 离开时间，数据类型为字符串。
- day: 日期，数据类型为字符串。
police: 警察领域
- name: 名称，数据类型为字符串。

其他特征

turn_slot_values: 当前轮次的槽值结构，与slot_values结构相同。
last_slot_values: 上一轮次的槽值结构，与slot_values结构相同。
last_system_response_acts: 上一轮次的系统响应动作，数据类型为字符串序列。
system_response_acts: 当前轮次的系统响应动作，数据类型为字符串序列。
system_response: 系统响应，数据类型为字符串。

数据集分割

训练集分割

train_0_50: 326个样本，484080.6597685645字节。
train_50_100: 315个样本，467746.6497763737字节。
train_100_150: 297个样本，441018.2697891524字节。
train_150_200: 346个样本，513778.85975436604字节。
train_200_250: 335个样本，497444.84976217523字节。
train_250_300: 365个样本，541992.1497408774字节。
train_300_350: 364个样本，540507.2397415874字节。
train_350_400: 341个样本，506354.3097579157字节。
train_400_450: 304个样本，451412.6397841829字节。
train_450_500: 341个样本，506354.3097579157字节。
train_500_550: 352个样本，522688.3197501065字节。
train_550_600: 337个样本，500414.6697607554字节。
train_600_650: 347个样本，515263.7697536561字节。
train_650_700: 348个样本，516748.6797529462字节。
train_700_750: 328个样本，487050.47976714466字节。
train_750_800: 326个样本，484080.6597685645字节。
train_800_850: 344个样本，510809.0397557859字节。
train_850_900: 317个样本，470716.46977495385字节。
train_900_950: 313个样本，464776.82977779355字节。
train_950_1000: 356个样本，528627.9597472668字节。
train_1000_1050: 350个样本，519718.49975152634字节。
train_1050_1100: 320个样本，475171.19977282407字节。
train_1100_1150: 349个样本，518233.58975223626字节。
train_1150_1200: 322个样本，478141.0197714042字节。
train_1200_1250: 332个样本，492990.119764305字节。
train_1250_1300: 339个样本，503384.4897593355字节。
train_1300_1350: 330个样本，490020.2997657248字节。
train_1350_1400: 361个样本，536052.5097437171字节。
train_1400_1450: 300个样本，445472.9997870226字节。
train_1450_1500: 372个样本，552386.519735908字节。
train_1500_1550: 341个样本，506354.3097579157字节。
train_1550_1600: 329个样本，488535.38976643473字节。
train_1600_1650: 329个样本，488535.38976643473字节。
train_1650_1700: 314个样本，466261.7397770836字节。
train_1700_1750: 326个样本，484080.6597685645字节。
train_1750_1800: 347个样本，515263.7697536561字节。
train_1800_1850: 369个样本，547931.7897380377字节。
train_1850_1900: 324个样本，481110.83976998436字节。
train_1900_1950: 346个样本，513778.85975436604字节。
train_1950_2000: 320个样本，475171.19977282407字节。
train_2000_2050: 331个样本，491505.20976501494字节。
train_2050_2100: 339个样本，503384.4897593355字节。
train_2100_2150: 363个样本，539022.3297422973字节。
train_2150_2200: 383个样本，568720.5297280988字节。
train_2200_2250: 327个样本，485565.5697678546字节。
train_2250_2300: 357个样本，530112.8697465569字节。
train_2300_2350: 335个样本，497444.84976217523字节。
train_2350_2400: 346个样本，513778.85975436604字节。
train_2400_2450: 330个样本，490020.2997657248字节。
train_2450_2500: 353个样本，524173.22974939656字节。
train_2500_2550: 330个样本，490020.2997657248字节。
train_2550_2600: 352个样本，522688.3197501065字节。
train_2600_2650: 315个样本，467746.6497763737字节。
train_2650_2700: 374个样本，555356.3397344882字节。
train_2700_2750: 362个样本，537537.4197430073字节。
train_2750_2800: 348个样本，516748.6797529462字节。
train_2800_2850: 371个样本，550901.6097366179字节。
train_2850_2900: 314个样本，466261.7397770836字节。
train_2900_2950: 369个样本，547931.7897380377字节。
train_2950_3000: 325个样本，482595.74976927444字节。
train_3000_3050: 351个样本，521203.4097508164字节。
train_3050_3100: 340个样本，504869.3997586256字节。
train_3100_3150: 309个样本，458837.18978063326字节。
train_3150_3200: 315个样本，467746.6497763737字节。
train_3200_3250: 328个样本，487050.47976714466字节。
train_3250_3300: 371个样本，550901.6097366179字节。
train_3300_3350: 321个样本，476656.10977211414字节。
train_3350_3400: 332个样本，492990.119764305字节。
train_3400_3450: 333个样本，494475.0297635951字节。
train_3450_3500: 334个样本，495959.93976288516字节。
train_3500_3550: 369个样本，547931.7897380377字节。
train_3550_3600: 337个样本，500414.6697607554字节。
train_3600_3650: 358个样本，531597.779745847字节。
train_3650_3700: 330个样本，490020.2997657248字节。
train_3700_3750: 358个样本，531597.779745847

5,000+

优质数据集

54 个

任务类型

进入经典数据集