five

pietrolesci/multiwoz_all_versions

收藏
Hugging Face2022-11-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/multiwoz_all_versions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于MultiWoz 2.2数据集的cumulative配置,包含了与MultiWoz 2.2相同的系统与用户对话、活跃意图和服务。此外,该数据集还包含了每个对话轮次在2.1、2.3和2.4版本中的注释。数据集中的每个对话轮次由系统话语和用户话语组成,顺序固定。初始系统话语用none字符串填充,最后一个对话轮次总是系统向用户问候,用户话语用none字符串填充。为了将数据保存为arrow文件,需要对状态进行填充,使其具有相同的键。此外,数据集的模式已更新,以使所有版本兼容,特别是移除了v2.2中的book字符串。

This dataset is based on the cumulative configuration of the MultiWoz 2.2 dataset, and contains the same system-user dialogues, active intents and services as MultiWoz 2.2. In addition, this dataset also includes annotations for each dialogue turn across versions 2.1, 2.3 and 2.4. Each dialogue turn in the dataset consists of a system utterance and a user utterance in a fixed order. The initial system utterance is filled with the string "none". The final dialogue turn always features a system greeting to the user, with the user utterance filled with the string "none". To save the data as Arrow files, the dialogue states need to be padded so that they all share the same set of keys. Additionally, the dataset schema has been updated to ensure compatibility across all versions, specifically by removing the "book" string present in v2.2.
提供机构:
pietrolesci
原始信息汇总

数据集概述

数据集来源与配置

  • 本数据集基于MultiWoz 2.2的"cumulative"配置,原始数据集可在HuggingFace Hub获取。
  • 系统与用户的话语、活跃的意图及服务与MultiWoz 2.2版本完全相同。

数据集内容

  • 除了MultiWoz 2.2版本的数据外,本数据集还包含了每个对话轮次从版本2.1、2.3和2.4的注释。

数据集结构

  • 每个对话轮次由系统话语和用户话语组成,顺序固定。
  • 初始系统话语填充为none
  • 最后一个对话轮次总是系统向用户打招呼,用户话语填充为none,通常在评估中不考虑此轮次。

数据处理

  • 为了保存为箭头文件,数据需要"填充"以确保所有状态具有相同的键,引入了None值。
  • 加载数据后,可以使用以下函数移除"填充": python def remove_empty_slots(state: Union[Dict[str, Union[List[str], None]], None]) -> Union[Dict[str, List[str]], None]: if state is None: return None return {k: v for k, v in state.items() if v is not None}

数据集架构

  • 架构已更新以兼容所有版本,移除了v2.2中的"book"字符串。更新后的架构包括以下槽位: yaml attraction-area attraction-name attraction-type hotel-area hotel-day hotel-internet hotel-name hotel-parking hotel-people hotel-pricerange hotel-stars hotel-stay hotel-type restaurant-area restaurant-day restaurant-food restaurant-name restaurant-people restaurant-pricerange restaurant-time taxi-arriveby taxi-departure taxi-destination taxi-leaveat train-arriveby train-day train-departure train-destination train-leaveat train-people
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作