PolyAI/woz_dialogue
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/PolyAI/woz_dialogue
下载链接
链接失效反馈官方服务:
资源简介:
Wizard-of-Oz数据集是一个多语言的文本生成和分类数据集,支持德语、英语和意大利语。该数据集包含对话建模、多类分类和解析等任务,适用于文本生成、填空、令牌分类和文本分类等任务。数据集规模介于1K到10K之间,由众包方式创建,包括训练、验证和测试集,每个语言配置都有详细的特征描述和数据分割信息。
Wizard-of-Oz数据集是一个多语言的文本生成和分类数据集,支持德语、英语和意大利语。该数据集包含对话建模、多类分类和解析等任务,适用于文本生成、填空、令牌分类和文本分类等任务。数据集规模介于1K到10K之间,由众包方式创建,包括训练、验证和测试集,每个语言配置都有详细的特征描述和数据分割信息。
提供机构:
PolyAI
原始信息汇总
数据集概述
名称: Wizard-of-Oz
语言: 德语 (de), 英语 (en), 意大利语 (it)
许可证: 未知
多语言性: 单语
大小: 1K<n<10K
源数据: 原始数据
任务类别: 文本生成, 填充掩码, 令牌分类, 文本分类
任务ID: 对话建模, 多类分类, 解析
数据集结构
特征
- dialogue_idx: 数据类型为int32
- dialogue: 包含多个子特征
- turn_label: 序列类型为字符串
- asr: 序列类型为字符串
- system_transcript: 数据类型为字符串
- turn_idx: 数据类型为int32
- belief_state: 包含两个子特征
- slots: 序列类型为字符串
- act: 数据类型为字符串
- transcript: 数据类型为字符串
- system_acts: 序列类型为字符串
数据分割
- train: 600个样本, 827189字节
- validation: 200个样本, 265684字节
- test: 400个样本, 537557字节
配置名称
- de
- de_en
- en
- it
- it_en



