five

Brendan/icdst_multiwoz_turns_v21

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/icdst_multiwoz_turns_v21
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多领域对话数据集,包含酒店、火车、景点、餐厅和出租车等多个领域的对话信息。每个对话都有唯一的标识符和轮次信息,记录了用户和系统的话语内容。数据集还详细记录了每个领域的属性信息,如酒店的价格范围、类型、停车信息等,火车的到达时间、出发时间等。数据集的划分包括训练集、验证集和测试集,每个部分都有对应的字节大小和样本数量。
提供机构:
Brendan
原始信息汇总

数据集概述

数据集特征

数据集包含以下特征:

  • dialogue_id: 对话ID,数据类型为字符串。
  • turn_id: 回合ID,数据类型为整数。
  • domains: 领域,数据类型为字符串序列。
  • user_utterances: 用户话语,数据类型为字符串序列。
  • system_utterances: 系统话语,数据类型为字符串序列。
  • slot_values: 槽值,数据类型为结构体,包含以下子结构:
    • hotel: 酒店信息,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • type: 类型,数据类型为字符串。
      • parking: 停车,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book stay: 预订住宿,数据类型为字符串。
      • stars: 星级,数据类型为字符串。
      • internet: 互联网,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • area: 区域,数据类型为字符串。
    • train: 火车信息,包含以下字段:
      • arrive by: 到达时间,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • day: 日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
    • attraction: 景点信息,包含以下字段:
      • area: 区域,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • type: 类型,数据类型为字符串。
    • restaurant: 餐厅信息,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • area: 区域,数据类型为字符串。
      • food: 食物,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book time: 预订时间,数据类型为字符串。
    • taxi: 出租车信息,包含以下字段:
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • arrive by: 到达时间,数据类型为字符串。
  • turn_slot_values: 回合槽值,数据类型为结构体,结构与slot_values相同。
  • last_slot_values: 最后一个回合的槽值,数据类型为结构体,结构与slot_values相同。
  • system_response_acts: 系统响应动作,数据类型为字符串序列。
  • system_response: 系统响应,数据类型为字符串。

数据集分割

数据集包含以下分割:

  • train: 训练集,包含54971个样本,大小为78112115字节。
  • validation: 验证集,包含7374个样本,大小为10681377字节。
  • test: 测试集,包含7368个样本,大小为10711425字节。
  • valid_20p_ablation: 验证集(20%),包含1447个样本,大小为2096006.5797396258字节。
  • valid_10p: 验证集(10%),包含731个样本,大小为1058867.1802278275字节。
  • valid_50p: 验证集(50%),包含3698个样本,大小为5356622.2058584215字节。
  • 1p_train_v1: 训练集(1%),包含524个样本,大小为744588.0238671299字节。
  • 1p_train_v2: 训练集(1%),包含522个样本,大小为741746.0848447363字节。
  • 1p_train_v3: 训练集(1%),包含579个样本,大小为822741.3469829547字节。
  • 5p_train_v1: 训练集(5%),包含2731个样本,大小为3880667.735078496字节。
  • 5p_train_v2: 训练集(5%),包含2754个样本,大小为3913350.0338360225字节。
  • 5p_train_v3: 训练集(5%),包含2679个样本,大小为3806777.3204962616字节。
  • 10p_train_v1: 训练集(10%),包含5480个样本,大小为7786912.921358534字节。
  • 10p_train_v2: 训练集(10%),包含5479个样本,大小为7785491.951847338字节。
  • 10p_train_v3: 训练集(10%),包含5413个样本,大小为7691707.964108348字节。

数据集大小

  • 下载大小: 6866897字节。
  • 数据集大小: 145190396.3482457字节。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作