five

Brendan/multiwoz_turns_v22_test_set_partitioned

收藏
Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/multiwoz_turns_v22_test_set_partitioned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个对话的详细信息,每个对话都有唯一的对话ID和轮次ID。数据集涵盖了多个领域,如酒店、火车、景点、餐厅、医院、出租车、公交车和警察等。每个对话包含系统发言和用户发言,并且记录了每个领域的槽位值。数据集被分割为多个测试集,每个测试集都有对应的字节大小和示例数量。

该数据集包含多个对话的详细信息,每个对话都有唯一的对话ID和轮次ID。数据集涵盖了多个领域,如酒店、火车、景点、餐厅、医院、出租车、公交车和警察等。每个对话包含系统发言和用户发言,并且记录了每个领域的槽位值。数据集被分割为多个测试集,每个测试集都有对应的字节大小和示例数量。
提供机构:
Brendan
原始信息汇总

数据集概述

数据集特征

数据集包含以下特征:

  • dialogue_id: 对话ID,数据类型为字符串。
  • turn_id: 对话轮次ID,数据类型为整数。
  • domains: 领域,数据类型为字符串序列。
  • system_utterances: 系统话语,数据类型为字符串序列。
  • user_utterances: 用户话语,数据类型为字符串序列。
  • slot_values: 槽值,数据类型为结构体,包含以下子结构:
    • hotel: 酒店相关槽值,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • type: 类型,数据类型为字符串。
      • parking: 停车,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book stay: 预订住宿,数据类型为字符串。
      • stars: 星级,数据类型为字符串。
      • internet: 互联网,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • area: 区域,数据类型为字符串。
    • train: 火车相关槽值,包含以下字段:
      • arrive by: 到达时间,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • day: 日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
    • attraction: 景点相关槽值,包含以下字段:
      • area: 区域,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • type: 类型,数据类型为字符串。
    • restaurant: 餐厅相关槽值,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • area: 区域,数据类型为字符串。
      • food: 食物,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book time: 预订时间,数据类型为字符串。
    • hospital: 医院相关槽值,包含以下字段:
      • department: 科室,数据类型为字符串。
    • taxi: 出租车相关槽值,包含以下字段:
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • arrive by: 到达时间,数据类型为字符串。
    • bus: 公交车相关槽值,包含以下字段:
      • departure: 出发地,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
      • leave at: 离开时间,数据类型为字符串。
      • day: 日期,数据类型为字符串。
    • police: 警察相关槽值,包含以下字段:
      • name: 名称,数据类型为字符串。
  • turn_slot_values: 轮次槽值,数据类型为结构体,包含与slot_values相同的子结构。
  • last_slot_values: 上一轮次槽值,数据类型为结构体,包含与slot_values相同的子结构。
  • last_system_response_acts: 上一轮次系统响应动作,数据类型为字符串序列。
  • system_response_acts: 系统响应动作,数据类型为字符串序列。
  • system_response: 系统响应,数据类型为字符串。

数据集分割

数据集包含以下分割:

  • test_0_50: 374个样本,573034.9669017906字节。
  • test_50_100: 355个样本,543923.5648399349字节。
  • test_100_150: 365个样本,559245.3553988063字节。
  • test_150_200: 371个样本,568438.4297341291字节。
  • test_200_250: 363个样本,556180.997287032字节。
  • test_250_300: 367个样本,562309.7135105806字节。
  • test_300_350: 372个样本,569970.6087900163字节。
  • test_350_400: 362个样本,554648.8182311449字节。
  • test_400_450: 343个样本,525537.4161692892字节。
  • test_450_500: 364个样本,557713.1763429191字节。
  • test_500_550: 389个样本,596017.6527400977字节。
  • test_550_600: 383个样本,586824.5784047748字节。
  • test_600_650: 380个样本,582228.0412371134字节。
  • test_650_700: 389个样本,596017.6527400977字节。
  • test_700_750: 380个样本,582228.0412371134字节。
  • test_750_800: 337个样本,516344.3418339664字节。
  • test_800_850: 370个样本,566906.250678242字节。
  • test_850_900: 389个样本,596017.6527400977字节。
  • test_900_950: 365个样本,559245.3553988063字节。
  • test_950_1000: 354个样本,542391.3857840478字节。

数据集大小

  • 下载大小: 2801791字节。
  • 数据集大小: 11295224.0字节。

配置

  • config_name: default
    • data_files:
      • test_0_50: data/test_0_50-*
      • test_50_100: data/test_50_100-*
      • test_100_150: data/test_100_150-*
      • test_150_200: data/test_150_200-*
      • test_200_250: data/test_200_250-*
      • test_250_300: data/test_250_300-*
      • test_300_350: data/test_300_350-*
      • test_350_400: data/test_350_400-*
      • test_400_450: data/test_400_450-*
      • test_450_500: data/test_450_500-*
      • test_500_550: data/test_500_550-*
      • test_550_600: data/test_550_600-*
      • test_600_650: data/test_600_650-*
      • test_650_700: data/test_650_700-*
      • test_700_750: data/test_700_750-*
      • test_750_800: data/test_750_800-*
      • test_800_850: data/test_800_850-*
      • test_850_900: data/test_850_900-*
      • test_900_950: data/test_900_950-*
      • test_950_1000: data/test_950_1000-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作