five

Brendan/multiwoz_turns_v22_test_set_partitioned_smaller

收藏
Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/multiwoz_turns_v22_test_set_partitioned_smaller
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个领域的对话数据,如酒店、火车、景点等,每个对话记录包括对话ID、轮次ID、系统话语、用户话语以及详细的槽值信息。数据集被分割成多个测试集,每个测试集都有其大小和示例数量。

该数据集包含多个领域的对话数据,如酒店、火车、景点等,每个对话记录包括对话ID、轮次ID、系统话语、用户话语以及详细的槽值信息。数据集被分割成多个测试集,每个测试集都有其大小和示例数量。
提供机构:
Brendan
原始信息汇总

数据集概述

数据集特征

数据集包含以下特征:

  • dialogue_id: 对话ID,数据类型为字符串。
  • turn_id: 对话轮次ID,数据类型为整数。
  • domains: 领域,数据类型为字符串序列。
  • system_utterances: 系统话语,数据类型为字符串序列。
  • user_utterances: 用户话语,数据类型为字符串序列。
  • slot_values: 槽值,数据类型为结构体,包含以下子结构:
    • hotel: 酒店相关槽值,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • type: 类型,数据类型为字符串。
      • parking: 停车,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book stay: 预订住宿,数据类型为字符串。
      • stars: 星级,数据类型为字符串。
      • internet: 网络,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • area: 区域,数据类型为字符串。
    • train: 火车相关槽值,包含以下字段:
      • arrive by: 到达时间,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • day: 日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
    • attraction: 景点相关槽值,包含以下字段:
      • area: 区域,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • type: 类型,数据类型为字符串。
    • restaurant: 餐厅相关槽值,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • area: 区域,数据类型为字符串。
      • food: 食物,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book time: 预订时间,数据类型为字符串。
    • hospital: 医院相关槽值,包含以下字段:
      • department: 部门,数据类型为字符串。
    • taxi: 出租车相关槽值,包含以下字段:
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • arrive by: 到达时间,数据类型为字符串。
    • bus: 公交车相关槽值,包含以下字段:
      • departure: 出发地,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
      • leave at: 离开时间,数据类型为字符串。
      • day: 日期,数据类型为字符串。
    • police: 警察相关槽值,包含以下字段:
      • name: 名称,数据类型为字符串。
  • turn_slot_values: 轮次槽值,数据类型为结构体,包含与slot_values相同的子结构。
  • last_slot_values: 上一轮槽值,数据类型为结构体,包含与slot_values相同的子结构。
  • last_system_response_acts: 上一轮系统响应行为,数据类型为字符串序列。
  • system_response_acts: 系统响应行为,数据类型为字符串序列。
  • system_response: 系统响应,数据类型为字符串。

数据集分割

数据集包含多个测试分割,每个分割包含不同数量的字节和示例:

  • test_0_25: 301839.2740097667字节,197个示例。
  • test_25_50: 271195.6928920239字节,177个示例。
  • test_50_75: 262002.61855670103字节,171个示例。
  • test_75_100: 281920.9462832339字节,184个示例。
  • test_100_125: 281920.9462832339字节,184个示例。
  • test_125_150: 277324.40911557246字节,181个示例。
  • test_150_175: 306435.8111774281字节,200个示例。
  • test_175_200: 262002.61855670103字节,171个示例。
  • test_200_225: 280388.7672273467字节,183个示例。
  • test_225_250: 275792.2300596853字节,180个示例。
  • test_250_275: 280388.7672273467字节,183个示例。
  • test_275_300: 281920.9462832339字节,184个示例。
  • test_300_325: 265066.9766684753字节,173个示例。
  • test_325_350: 304903.63212154096字节,199个示例。
  • test_350_375: 283453.125339121字节,185个示例。
  • test_375_400: 271195.6928920239字节,177个示例。
  • test_400_425: 266599.15572436247字节,174个示例。
  • test_425_450: 258938.26044492674字节,169个示例。
  • test_450_475: 295710.5577862181字节,193个示例。
  • test_475_500: 262002.61855670103字节,171个示例。
  • test_500_525: 297242.7368421053字节,194个示例。
  • test_525_550: 298774.9158979924字节,195个示例。
  • test_550_575: 303371.4530656538字节,198个示例。
  • test_575_600: 283453.125339121字节,185个示例。
  • test_600_625: 326354.13890396093字节,213个示例。
  • test_625_650: 255873.90233315248字节,167个示例。
  • test_650_675: 281920.9462832339字节,184个示例。
  • test_675_700: 314096.7064568638字节,205个示例。
  • test_700_725: 314096.7064568638字节,205个示例。
  • test_725_750: 268131.33478024957字节,175个示例。
  • test_750_775: 278856.58817145956字节,182个示例。
  • test_775_800: 237487.7536625068字节,155个示例。
  • test_800_825: 280388.7672273467字节,183个示例。
  • test_825_850: 286517.4834508953字节,187个示例。
  • test_850_875: 286517.4834508953字节,187个示例。
  • test_875_900: 309500.1692892024字节,202个示例。
  • test_900_925: 280388.7672273467字节,183个示例。
  • test_925_950: 278856.58817145956字节,182个示例。
  • test_950_975: 274260.05100379814字节,179个示例。
  • test_975_1000: 268131.33478024957字节,175个示例。

数据集大小

  • 下载大小: 4088912字节。
  • 数据集大小: 11295223.999999998字节。

配置

  • 配置名称: default
  • 数据文件: 每个分割对应一个数据文件路径,例如:
    • test_0_25: data/test_0_25-*
    • test_25_50: data/test_25_50-*
    • test_50_75: data/test_50_75-*
    • test_75_100: data/test_75_100-*
    • test_100_125: data/test_100_125-*
    • test_125_150: data/test_125_150-*
    • test_150_175: data/test_150_175-*
    • test_175_200: data/test_175_200-*
    • test_200_225: data/test_200_225-*
    • test_225_250: data/test_225_250-*
    • test_250_275: data/test_250_275-*
    • test_275_300: data/test_275_300-*
    • test_300_325: data/test_300_325-*
    • test_325_350: data/test_325_350-*
    • test_350_375: data/test_350_375-*
    • test_375_400: data/test_375_400-*
    • test_400_425: data/test_400_425-*
    • test_425_450: data/test_425_450-*
    • test_450_475: data/test_450_475-*
    • test_475_500: data/test_475_500-*
    • test_500_525: data/test_500_525-*
    • test_525_550: data/test_525_550-*
    • test_550_575: data/test_550_575-*
    • test_575_600: data/test_575_600-*
    • test_600_625: data/test_600_625-*
    • test_625_650: data/test_625_650-*
    • test_650_675: data/test_650_675-*
    • test_675_700: data/test_675_700-*
    • test_700_725: data/test_700_725-*
    • test_725_750: data/test_725_750-*
    • test_750_775: data/test_750_775-*
    • test_775_800: data/test_775_800-*
    • test_800_825: data/test_800_825-*
    • test_825_850: data/test_825_850-*
    • test_850_875: data/test_850_875-*
    • test_875_900: data/test_875_900-*
    • test_900_925: data/test_900_925-*
    • test_925_950: data/test_925_950-*
    • test_950_975: data/test_950_975-*
    • test_975_1000: data/test_975_1000-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作