five

ConvLab/camrest

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/camrest
下载链接
链接失效反馈
官方服务:
资源简介:
Camrest数据集是一个用于开发基于神经网络的对话系统的剑桥餐厅对话领域数据集。该数据集基于亚马逊MTurk上的Wizard of Oz实验收集,包含676个对话,每个对话包含用户和系统之间的多个交换,并且每个用户回合都有标注的槽值对表示对话状态。数据集经过预处理,添加了对话行为注释、重命名了某些字段,并添加了非分类槽的字符级跨度注释。数据集支持的任务包括NLU、DST、Policy、NLG、E2E和用户模拟器。数据集的引用信息和使用许可也包含在内。

The Camrest dataset is a Cambridge restaurant dialogue domain dataset designed for developing neural network-based dialogue systems. Collected via Wizard of Oz experiments on Amazon MTurk, it contains 676 dialogues, each consisting of multiple interaction turns between the user and the system, with each user turn annotated with slot-value pairs to represent the dialogue state. The dataset has undergone preprocessing, including the addition of dialogue act annotations, renaming of certain fields, and the addition of character-level span annotations for non-categorical slots. Supported tasks include NLU (Natural Language Understanding), DST (Dialogue State Tracking), Dialogue Policy, NLG (Natural Language Generation), E2E (End-to-End) dialogue systems, and user simulators. Relevant citation information and usage licenses for the dataset are also included.
提供机构:
ConvLab
原始信息汇总

Camrest数据集概述

数据集基本信息

  • 名称: Camrest
  • 语言: 英语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 大小类别: 小于1K
  • 任务类别: 对话系统

数据集描述

  • 领域: 剑桥餐厅对话
  • 目的: 开发基于神经网络的对话系统
  • 收集方式: 通过Amazon MTurk上的Wizard of Oz实验
  • 对话特点: 包含676个对话,每个对话有目标标签和客户与系统之间的多次交流,每个用户回合标记有槽值对表示对话状态

数据处理

  • 原始数据转换: 通过运行python preprocess.py并指定原始数据路径../../camrest/
  • 主要转换变化:
    • 添加对话行为注释
    • 重命名pricerangeprice range
    • 添加非分类槽的字符级跨度注释

数据集结构

  • 注释类型: 用户目标、对话行为、状态
  • 数据分割:
    分割 对话数 话语数 平均话语数 平均令牌数 平均域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽跨度(对话行为)
    训练 406 3342 8.23 10.6 1 100 100 100 99.83
    验证 135 1076 7.97 11.26 1 100 100 100 100
    测试 135 1070 7.93 11.01 1 100 100 100 100
    全部 676 5488 8.12 10.81 1 100 100 100 99.9

支持的任务

  • 自然语言理解(NLU)
  • 对话状态跟踪(DST)
  • 策略(Policy)
  • 自然语言生成(NLG)
  • 端到端(E2E)
  • 用户模拟器

许可证

  • 许可证类型: CC BY 4.0
  • 许可证详情: CC BY 4.0
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CamRest数据集是一个剑桥餐厅对话领域的英文数据集,包含676个对话,支持多种对话系统任务,如NLU、DST、Policy、NLG、E2E和用户模拟器。数据集采用CC BY 4.0许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作