ConvLab/camrest
收藏Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/camrest
下载链接
链接失效反馈官方服务:
资源简介:
Camrest数据集是一个用于开发基于神经网络的对话系统的剑桥餐厅对话领域数据集。该数据集基于亚马逊MTurk上的Wizard of Oz实验收集,包含676个对话,每个对话包含用户和系统之间的多个交换,并且每个用户回合都有标注的槽值对表示对话状态。数据集经过预处理,添加了对话行为注释、重命名了某些字段,并添加了非分类槽的字符级跨度注释。数据集支持的任务包括NLU、DST、Policy、NLG、E2E和用户模拟器。数据集的引用信息和使用许可也包含在内。
The Camrest dataset is a Cambridge restaurant dialogue domain dataset designed for developing neural network-based dialogue systems. Collected via Wizard of Oz experiments on Amazon MTurk, it contains 676 dialogues, each consisting of multiple interaction turns between the user and the system, with each user turn annotated with slot-value pairs to represent the dialogue state. The dataset has undergone preprocessing, including the addition of dialogue act annotations, renaming of certain fields, and the addition of character-level span annotations for non-categorical slots. Supported tasks include NLU (Natural Language Understanding), DST (Dialogue State Tracking), Dialogue Policy, NLG (Natural Language Generation), E2E (End-to-End) dialogue systems, and user simulators. Relevant citation information and usage licenses for the dataset are also included.
提供机构:
ConvLab
原始信息汇总
Camrest数据集概述
数据集基本信息
- 名称: Camrest
- 语言: 英语
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 大小类别: 小于1K
- 任务类别: 对话系统
数据集描述
- 领域: 剑桥餐厅对话
- 目的: 开发基于神经网络的对话系统
- 收集方式: 通过Amazon MTurk上的Wizard of Oz实验
- 对话特点: 包含676个对话,每个对话有目标标签和客户与系统之间的多次交流,每个用户回合标记有槽值对表示对话状态
数据处理
- 原始数据转换: 通过运行
python preprocess.py并指定原始数据路径../../camrest/ - 主要转换变化:
- 添加对话行为注释
- 重命名
pricerange为price range - 添加非分类槽的字符级跨度注释
数据集结构
- 注释类型: 用户目标、对话行为、状态
- 数据分割:
分割 对话数 话语数 平均话语数 平均令牌数 平均域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽跨度(对话行为) 训练 406 3342 8.23 10.6 1 100 100 100 99.83 验证 135 1076 7.97 11.26 1 100 100 100 100 测试 135 1070 7.93 11.01 1 100 100 100 100 全部 676 5488 8.12 10.81 1 100 100 100 99.9
支持的任务
- 自然语言理解(NLU)
- 对话状态跟踪(DST)
- 策略(Policy)
- 自然语言生成(NLG)
- 端到端(E2E)
- 用户模拟器
许可证
- 许可证类型: CC BY 4.0
- 许可证详情: CC BY 4.0
搜集汇总
数据集介绍

背景与挑战
背景概述
CamRest数据集是一个剑桥餐厅对话领域的英文数据集,包含676个对话,支持多种对话系统任务,如NLU、DST、Policy、NLG、E2E和用户模拟器。数据集采用CC BY 4.0许可证。
以上内容由遇见数据集搜集并总结生成



