five

ConvLab/multiwoz21

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/multiwoz21
下载链接
链接失效反馈
官方服务:
资源简介:
MultiWOZ 2.1是一个用于对话系统的数据集,主要修复了状态注释和对话语句中的噪声,并包含了来自ConvLab的用户对话行为以及每个对话状态槽的多个槽描述。数据集支持多种任务,如自然语言理解(NLU)、对话状态跟踪(DST)、策略(Policy)、自然语言生成(NLG)、端到端(E2E)和用户模拟器。数据集包含8个领域,如景点、酒店、出租车等,并且提供了详细的数据分割信息。

MultiWOZ 2.1 is a dialogue system dataset that primarily fixes noise in state annotations and conversational utterances. It includes user dialogue acts from ConvLab and multiple slot descriptions for each dialogue state slot. The dataset supports a variety of tasks, such as natural language understanding (NLU), dialogue state tracking (DST), dialogue policy, natural language generation (NLG), end-to-end (E2E) systems and user simulators. It covers 8 domains including attractions, hotels, taxis and others, and provides detailed data split information.
提供机构:
ConvLab
原始信息汇总

数据集概述

  • 名称: MultiWOZ 2.1
  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 任务类别: 对话式

数据集详情

  • 数据集总结:
    • MultiWOZ 2.1 修正了状态注释和对话语句中的噪声。
    • 包含来自ConvLab的用户对话行为以及每个对话状态槽的多个槽描述。
  • 数据转换:
    • 下载 MultiWOZ_2.1.zip
    • 运行 python preprocess.py 进行预处理。
    • 主要变化包括创建新的统一格式本体,纠正文本中的语法错误,标准化槽名和值,以及修正非分类槽的值并提供字符级跨度注释。
  • 注释:
    • 包含用户目标、对话行为、状态的注释。

支持的任务和排行榜

  • NLU, DST, Policy, NLG, E2E, User simulator

数据分割

分割 对话数 语句数 平均语句数 平均令牌数 平均领域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽跨度(对话行为)
训练 8438 113556 13.46 13.23 2.8 98.84 99.48 86.39 98.22
验证 1000 14748 14.75 13.5 2.98 98.84 99.46 86.59 98.17
测试 1000 14744 14.74 13.5 2.93 99.21 99.32 85.83 98.58
全部 10438 143048 13.7 13.28 2.83 98.88 99.47 86.35 98.25
  • 领域: 包含8个领域,如attraction, hotel, taxi, restaurant, train, police, hospital, general。

许可证信息

  • 许可证: Apache License, Version 2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作