five

PolyAI/woz_dialogue

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/PolyAI/woz_dialogue
下载链接
链接失效反馈
官方服务:
资源简介:
Wizard-of-Oz数据集是一个多语言的文本生成和分类数据集,支持德语、英语和意大利语。该数据集包含对话建模、多类分类和解析等任务,适用于文本生成、填空、令牌分类和文本分类等任务。数据集规模介于1K到10K之间,由众包方式创建,包括训练、验证和测试集,每个语言配置都有详细的特征描述和数据分割信息。

Wizard-of-Oz数据集是一个多语言的文本生成和分类数据集,支持德语、英语和意大利语。该数据集包含对话建模、多类分类和解析等任务,适用于文本生成、填空、令牌分类和文本分类等任务。数据集规模介于1K到10K之间,由众包方式创建,包括训练、验证和测试集,每个语言配置都有详细的特征描述和数据分割信息。
提供机构:
PolyAI
原始信息汇总

数据集概述

名称: Wizard-of-Oz

语言: 德语 (de), 英语 (en), 意大利语 (it)

许可证: 未知

多语言性: 单语

大小: 1K<n<10K

源数据: 原始数据

任务类别: 文本生成, 填充掩码, 令牌分类, 文本分类

任务ID: 对话建模, 多类分类, 解析

数据集结构

特征

  • dialogue_idx: 数据类型为int32
  • dialogue: 包含多个子特征
    • turn_label: 序列类型为字符串
    • asr: 序列类型为字符串
    • system_transcript: 数据类型为字符串
    • turn_idx: 数据类型为int32
    • belief_state: 包含两个子特征
      • slots: 序列类型为字符串
      • act: 数据类型为字符串
    • transcript: 数据类型为字符串
    • system_acts: 序列类型为字符串

数据分割

  • train: 600个样本, 827189字节
  • validation: 200个样本, 265684字节
  • test: 400个样本, 537557字节

配置名称

  • de
  • de_en
  • en
  • it
  • it_en
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作