five

Brendan/icdst_multiwoz_turns_v24

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Brendan/icdst_multiwoz_turns_v24
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: dialogue_id dtype: string - name: turn_id dtype: int8 - name: domains sequence: string - name: user_utterances sequence: string - name: system_utterances sequence: string - name: slot_values struct: - name: hotel struct: - name: price range dtype: string - name: type dtype: string - name: parking dtype: string - name: book day dtype: string - name: book people dtype: string - name: book stay dtype: string - name: stars dtype: string - name: internet dtype: string - name: name dtype: string - name: area dtype: string - name: train struct: - name: arrive by dtype: string - name: departure dtype: string - name: day dtype: string - name: book people dtype: string - name: leave at dtype: string - name: destination dtype: string - name: attraction struct: - name: area dtype: string - name: name dtype: string - name: type dtype: string - name: restaurant struct: - name: price range dtype: string - name: area dtype: string - name: food dtype: string - name: name dtype: string - name: book day dtype: string - name: book people dtype: string - name: book time dtype: string - name: taxi struct: - name: leave at dtype: string - name: destination dtype: string - name: departure dtype: string - name: arrive by dtype: string - name: turn_slot_values struct: - name: hotel struct: - name: price range dtype: string - name: type dtype: string - name: parking dtype: string - name: book day dtype: string - name: book people dtype: string - name: book stay dtype: string - name: stars dtype: string - name: internet dtype: string - name: name dtype: string - name: area dtype: string - name: train struct: - name: arrive by dtype: string - name: departure dtype: string - name: day dtype: string - name: book people dtype: string - name: leave at dtype: string - name: destination dtype: string - name: attraction struct: - name: area dtype: string - name: name dtype: string - name: type dtype: string - name: restaurant struct: - name: price range dtype: string - name: area dtype: string - name: food dtype: string - name: name dtype: string - name: book day dtype: string - name: book people dtype: string - name: book time dtype: string - name: taxi struct: - name: leave at dtype: string - name: destination dtype: string - name: departure dtype: string - name: arrive by dtype: string - name: last_slot_values struct: - name: hotel struct: - name: price range dtype: string - name: type dtype: string - name: parking dtype: string - name: book day dtype: string - name: book people dtype: string - name: book stay dtype: string - name: stars dtype: string - name: internet dtype: string - name: name dtype: string - name: area dtype: string - name: train struct: - name: arrive by dtype: string - name: departure dtype: string - name: day dtype: string - name: book people dtype: string - name: leave at dtype: string - name: destination dtype: string - name: attraction struct: - name: area dtype: string - name: name dtype: string - name: type dtype: string - name: restaurant struct: - name: price range dtype: string - name: area dtype: string - name: food dtype: string - name: name dtype: string - name: book day dtype: string - name: book people dtype: string - name: book time dtype: string - name: taxi struct: - name: leave at dtype: string - name: destination dtype: string - name: departure dtype: string - name: arrive by dtype: string - name: system_response_acts sequence: string - name: system_response dtype: string splits: - name: train num_bytes: 78112115 num_examples: 54971 - name: validation num_bytes: 10725891 num_examples: 7374 - name: test num_bytes: 10734111 num_examples: 7368 - name: valid_20p_ablation num_bytes: 2104741.561838893 num_examples: 1447 - name: valid_10p num_bytes: 1063279.9458909682 num_examples: 731 - name: valid_50p num_bytes: 5378945.608624898 num_examples: 3698 - name: 1p_train_v1 num_bytes: 744588.0238671299 num_examples: 524 - name: 1p_train_v2 num_bytes: 741746.0848447363 num_examples: 522 - name: 1p_train_v3 num_bytes: 822741.3469829547 num_examples: 579 - name: 5p_train_v1 num_bytes: 3880667.735078496 num_examples: 2731 - name: 5p_train_v2 num_bytes: 3913350.0338360225 num_examples: 2754 - name: 5p_train_v3 num_bytes: 3806777.3204962616 num_examples: 2679 - name: 10p_train_v1 num_bytes: 7786912.921358534 num_examples: 5480 - name: 10p_train_v2 num_bytes: 7785491.951847338 num_examples: 5479 - name: 10p_train_v3 num_bytes: 7691707.964108348 num_examples: 5413 download_size: 6875945 dataset_size: 145293067.4987746 --- # Dataset Card for "icdst_multiwoz_turns_v24" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Brendan
原始信息汇总

数据集概述

数据集信息

特征

  • dialogue_id: 对话ID,数据类型为字符串。
  • turn_id: 对话轮次ID,数据类型为整数。
  • domains: 领域,数据类型为字符串序列。
  • user_utterances: 用户话语,数据类型为字符串序列。
  • system_utterances: 系统话语,数据类型为字符串序列。
  • slot_values: 槽值,数据类型为结构体,包含以下子结构:
    • hotel: 酒店信息,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • type: 类型,数据类型为字符串。
      • parking: 停车信息,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book stay: 预订住宿,数据类型为字符串。
      • stars: 星级,数据类型为字符串。
      • internet: 互联网,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • area: 区域,数据类型为字符串。
    • train: 火车信息,包含以下字段:
      • arrive by: 到达时间,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • day: 日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
    • attraction: 景点信息,包含以下字段:
      • area: 区域,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • type: 类型,数据类型为字符串。
    • restaurant: 餐厅信息,包含以下字段:
      • price range: 价格范围,数据类型为字符串。
      • area: 区域,数据类型为字符串。
      • food: 食物类型,数据类型为字符串。
      • name: 名称,数据类型为字符串。
      • book day: 预订日期,数据类型为字符串。
      • book people: 预订人数,数据类型为字符串。
      • book time: 预订时间,数据类型为字符串。
    • taxi: 出租车信息,包含以下字段:
      • leave at: 离开时间,数据类型为字符串。
      • destination: 目的地,数据类型为字符串。
      • departure: 出发地,数据类型为字符串。
      • arrive by: 到达时间,数据类型为字符串。
  • turn_slot_values: 轮次槽值,数据类型为结构体,包含与slot_values相同的子结构。
  • last_slot_values: 上一轮槽值,数据类型为结构体,包含与slot_values相同的子结构。
  • system_response_acts: 系统响应动作,数据类型为字符串序列。
  • system_response: 系统响应,数据类型为字符串。

数据集划分

  • train: 训练集,包含78,112,115字节,54,971个样本。
  • validation: 验证集,包含10,725,891字节,7,374个样本。
  • test: 测试集,包含10,734,111字节,7,368个样本。
  • valid_20p_ablation: 验证集(20% ablation),包含2,104,741.561838893字节,1,447个样本。
  • valid_10p: 验证集(10%),包含1,063,279.9458909682字节,731个样本。
  • valid_50p: 验证集(50%),包含5,378,945.608624898字节,3,698个样本。
  • 1p_train_v1: 训练集(1% v1),包含744,588.0238671299字节,524个样本。
  • 1p_train_v2: 训练集(1% v2),包含741,746.0848447363字节,522个样本。
  • 1p_train_v3: 训练集(1% v3),包含822,741.3469829547字节,579个样本。
  • 5p_train_v1: 训练集(5% v1),包含3,880,667.735078496字节,2,731个样本。
  • 5p_train_v2: 训练集(5% v2),包含3,913,350.0338360225字节,2,754个样本。
  • 5p_train_v3: 训练集(5% v3),包含3,806,777.3204962616字节,2,679个样本。
  • 10p_train_v1: 训练集(10% v1),包含7,786,912.921358534字节,5,480个样本。
  • 10p_train_v2: 训练集(10% v2),包含7,785,491.951847338字节,5,479个样本。
  • 10p_train_v3: 训练集(10% v3),包含7,691,707.964108348字节,5,413个样本。

数据集大小

  • download_size: 下载大小为6,875,945字节。
  • dataset_size: 数据集大小为145,293,067.4987746字节。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作