five

Brendan/multiwoz_turns_v22_partitioned

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/multiwoz_turns_v22_partitioned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个对话,每个对话具有唯一的对话ID和轮次ID。对话涉及多个领域,如酒店、火车、景点、餐厅、医院、出租车、公交车和警察等。每个对话包含系统话语和用户话语,并且每个领域都有相应的槽位值。数据集被分为多个训练集子集,每个子集包含不同数量的字节和示例。数据集的下载大小为22147174字节,总大小为83665769.0字节。

该数据集包含多个对话,每个对话具有唯一的对话ID和轮次ID。对话涉及多个领域,如酒店、火车、景点、餐厅、医院、出租车、公交车和警察等。每个对话包含系统话语和用户话语,并且每个领域都有相应的槽位值。数据集被分为多个训练集子集,每个子集包含不同数量的字节和示例。数据集的下载大小为22147174字节,总大小为83665769.0字节。
提供机构:
Brendan
原始信息汇总

数据集概述

数据集特征

基本特征

  • dialogue_id: 对话ID,数据类型为字符串。
  • turn_id: 对话轮次ID,数据类型为整数(int8)。
  • domains: 领域列表,数据类型为字符串序列。
  • system_utterances: 系统话语列表,数据类型为字符串序列。
  • user_utterances: 用户话语列表,数据类型为字符串序列。
  • slot_values: 槽值结构,包含多个领域及其对应的槽值。

槽值结构

  • hotel: 酒店领域
    • price range: 价格范围,数据类型为字符串。
    • type: 类型,数据类型为字符串。
    • parking: 停车设施,数据类型为字符串。
    • book day: 预订日期,数据类型为字符串。
    • book people: 预订人数,数据类型为字符串。
    • book stay: 预订住宿时长,数据类型为字符串。
    • stars: 星级,数据类型为字符串。
    • internet: 网络服务,数据类型为字符串。
    • name: 名称,数据类型为字符串。
    • area: 区域,数据类型为字符串。
  • train: 火车领域
    • arrive by: 到达时间,数据类型为字符串。
    • departure: 出发地,数据类型为字符串。
    • day: 日期,数据类型为字符串。
    • book people: 预订人数,数据类型为字符串。
    • leave at: 离开时间,数据类型为字符串。
    • destination: 目的地,数据类型为字符串。
  • attraction: 景点领域
    • area: 区域,数据类型为字符串。
    • name: 名称,数据类型为字符串。
    • type: 类型,数据类型为字符串。
  • restaurant: 餐厅领域
    • price range: 价格范围,数据类型为字符串。
    • area: 区域,数据类型为字符串。
    • food: 食物类型,数据类型为字符串。
    • name: 名称,数据类型为字符串。
    • book day: 预订日期,数据类型为字符串。
    • book people: 预订人数,数据类型为字符串。
    • book time: 预订时间,数据类型为字符串。
  • hospital: 医院领域
    • department: 科室,数据类型为字符串。
  • taxi: 出租车领域
    • leave at: 离开时间,数据类型为字符串。
    • destination: 目的地,数据类型为字符串。
    • departure: 出发地,数据类型为字符串。
    • arrive by: 到达时间,数据类型为字符串。
  • bus: 巴士领域
    • departure: 出发地,数据类型为字符串。
    • destination: 目的地,数据类型为字符串。
    • leave at: 离开时间,数据类型为字符串。
    • day: 日期,数据类型为字符串。
  • police: 警察领域
    • name: 名称,数据类型为字符串。

其他特征

  • turn_slot_values: 当前轮次的槽值结构,与slot_values结构相同。
  • last_slot_values: 上一轮次的槽值结构,与slot_values结构相同。
  • last_system_response_acts: 上一轮次的系统响应动作,数据类型为字符串序列。
  • system_response_acts: 当前轮次的系统响应动作,数据类型为字符串序列。
  • system_response: 系统响应,数据类型为字符串。

数据集分割

训练集分割

  • train_0_50: 326个样本,484080.6597685645字节。
  • train_50_100: 315个样本,467746.6497763737字节。
  • train_100_150: 297个样本,441018.2697891524字节。
  • train_150_200: 346个样本,513778.85975436604字节。
  • train_200_250: 335个样本,497444.84976217523字节。
  • train_250_300: 365个样本,541992.1497408774字节。
  • train_300_350: 364个样本,540507.2397415874字节。
  • train_350_400: 341个样本,506354.3097579157字节。
  • train_400_450: 304个样本,451412.6397841829字节。
  • train_450_500: 341个样本,506354.3097579157字节。
  • train_500_550: 352个样本,522688.3197501065字节。
  • train_550_600: 337个样本,500414.6697607554字节。
  • train_600_650: 347个样本,515263.7697536561字节。
  • train_650_700: 348个样本,516748.6797529462字节。
  • train_700_750: 328个样本,487050.47976714466字节。
  • train_750_800: 326个样本,484080.6597685645字节。
  • train_800_850: 344个样本,510809.0397557859字节。
  • train_850_900: 317个样本,470716.46977495385字节。
  • train_900_950: 313个样本,464776.82977779355字节。
  • train_950_1000: 356个样本,528627.9597472668字节。
  • train_1000_1050: 350个样本,519718.49975152634字节。
  • train_1050_1100: 320个样本,475171.19977282407字节。
  • train_1100_1150: 349个样本,518233.58975223626字节。
  • train_1150_1200: 322个样本,478141.0197714042字节。
  • train_1200_1250: 332个样本,492990.119764305字节。
  • train_1250_1300: 339个样本,503384.4897593355字节。
  • train_1300_1350: 330个样本,490020.2997657248字节。
  • train_1350_1400: 361个样本,536052.5097437171字节。
  • train_1400_1450: 300个样本,445472.9997870226字节。
  • train_1450_1500: 372个样本,552386.519735908字节。
  • train_1500_1550: 341个样本,506354.3097579157字节。
  • train_1550_1600: 329个样本,488535.38976643473字节。
  • train_1600_1650: 329个样本,488535.38976643473字节。
  • train_1650_1700: 314个样本,466261.7397770836字节。
  • train_1700_1750: 326个样本,484080.6597685645字节。
  • train_1750_1800: 347个样本,515263.7697536561字节。
  • train_1800_1850: 369个样本,547931.7897380377字节。
  • train_1850_1900: 324个样本,481110.83976998436字节。
  • train_1900_1950: 346个样本,513778.85975436604字节。
  • train_1950_2000: 320个样本,475171.19977282407字节。
  • train_2000_2050: 331个样本,491505.20976501494字节。
  • train_2050_2100: 339个样本,503384.4897593355字节。
  • train_2100_2150: 363个样本,539022.3297422973字节。
  • train_2150_2200: 383个样本,568720.5297280988字节。
  • train_2200_2250: 327个样本,485565.5697678546字节。
  • train_2250_2300: 357个样本,530112.8697465569字节。
  • train_2300_2350: 335个样本,497444.84976217523字节。
  • train_2350_2400: 346个样本,513778.85975436604字节。
  • train_2400_2450: 330个样本,490020.2997657248字节。
  • train_2450_2500: 353个样本,524173.22974939656字节。
  • train_2500_2550: 330个样本,490020.2997657248字节。
  • train_2550_2600: 352个样本,522688.3197501065字节。
  • train_2600_2650: 315个样本,467746.6497763737字节。
  • train_2650_2700: 374个样本,555356.3397344882字节。
  • train_2700_2750: 362个样本,537537.4197430073字节。
  • train_2750_2800: 348个样本,516748.6797529462字节。
  • train_2800_2850: 371个样本,550901.6097366179字节。
  • train_2850_2900: 314个样本,466261.7397770836字节。
  • train_2900_2950: 369个样本,547931.7897380377字节。
  • train_2950_3000: 325个样本,482595.74976927444字节。
  • train_3000_3050: 351个样本,521203.4097508164字节。
  • train_3050_3100: 340个样本,504869.3997586256字节。
  • train_3100_3150: 309个样本,458837.18978063326字节。
  • train_3150_3200: 315个样本,467746.6497763737字节。
  • train_3200_3250: 328个样本,487050.47976714466字节。
  • train_3250_3300: 371个样本,550901.6097366179字节。
  • train_3300_3350: 321个样本,476656.10977211414字节。
  • train_3350_3400: 332个样本,492990.119764305字节。
  • train_3400_3450: 333个样本,494475.0297635951字节。
  • train_3450_3500: 334个样本,495959.93976288516字节。
  • train_3500_3550: 369个样本,547931.7897380377字节。
  • train_3550_3600: 337个样本,500414.6697607554字节。
  • train_3600_3650: 358个样本,531597.779745847字节。
  • train_3650_3700: 330个样本,490020.2997657248字节。
  • train_3700_3750: 358个样本,531597.779745847
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作