five

ConvLab/sgd2

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/sgd2
下载链接
链接失效反馈
官方服务:
资源简介:
SGD-X v2数据集是一个多领域任务导向对话数据集,包含超过20k的对话,涉及20个不同的领域,如银行、事件、媒体、日历、旅行和天气等。这些对话涉及与服务和API的交互,反映了现实世界中的常见场景。数据集支持多种任务,如意图预测、槽填充、对话状态跟踪、策略模仿学习、语言生成和用户模拟学习等。SGD-X数据集是SGD数据集的5个语言变体,由众包工作者编写,用于评估模型在不同语言变体上的性能。数据集的获取需要通过特定的脚本转换原始数据,并且需要安装ConvLab-3平台。数据集的语言为英语,数据分割包括训练集、验证集和测试集。
提供机构:
ConvLab
原始信息汇总

数据集概述

  • 名称: SGD-X v2
  • 语言: 英语
  • 许可: CC BY-SA 4.0
  • 大小: 10K<n<100K
  • 任务类型: 对话式

数据集内容

  • 概述:
    • Schema-Guided Dialogue (SGD) 数据集包含超过20,000个多领域、任务导向的人机对话标注。这些对话涉及20个领域的服务和API交互,如银行、事件、媒体、日历、旅行和天气等。
    • SGD-X 数据集包含原始SGD数据集中每个模式的5种语言变体,由数百名付费众包工作者编写。SGD-X目录中,v1代表最接近原始模式,v5代表语言距离最远的变体。

数据处理

  • 转换方法:
    • 下载 dstc8-schema-guided-dialogue-master.zip
    • 修改 sgd_x/generate_sgdx_dialogues.py
    • 运行 python -m sgd_x.generate_sgdx_dialoguespython preprocess.py
    • 主要变化包括:
      • 将原始 act 改为 intent
      • 为每个领域添加 count 槽,非分类,通过文本匹配找到范围。
      • 根据 intent对话行为 进行分类。
      • 使用 | 连接多个值。
      • 保留 active_intent, requested_slots, service_call

数据集分割

分割 对话数 话语数 平均话语数 平均令牌数 平均领域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽范围(对话行为)
训练 16142 329964 20.44 9.75 1.84 100 - 100 100
验证 2482 48726 19.63 9.66 1.84 100 - 100 100
测试 4201 84594 20.14 10.4 2.02 100 - 100 100
全部 22825 463284 20.3 9.86 1.87 100 - 100 100

支持的任务

  • NLU, DST, Policy, NLG, E2E

引用信息

@inproceedings{lee2022sgd, title={SGD-X: A Benchmark for Robust Generalization in Schema-Guided Dialogue Systems}, author={Lee, Harrison and Gupta, Raghav and Rastogi, Abhinav and Cao, Yuan and Zhang, Bin and Wu, Yonghui}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={36}, number={10}, pages={10938--10946}, year={2022} }

许可信息

  • CC BY-SA 4.0
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作