five

ConvLab/sgd3

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/sgd3
下载链接
链接失效反馈
官方服务:
资源简介:
SGD-X v3数据集是一个用于对话系统研究的多领域任务导向对话数据集,包含超过20,000条标注的对话,涉及20个不同的服务领域,如银行、事件、媒体、日历、旅行和天气等。该数据集包含多个不同API的交互,反映了现实世界中的常见场景。SGD-X数据集是SGD数据集的五个语言变体,由众包工作者编写,用于评估模型在不同语言变体上的表现。数据集支持多种任务,如自然语言理解、对话状态跟踪、策略学习、自然语言生成和端到端对话系统。数据集的语言为英语,数据分割包括训练集、验证集和测试集。
提供机构:
ConvLab
原始信息汇总

数据集概述

  • 名称: SGD-X v3
  • 语言: 英语
  • 大小: 10K<n<100K
  • 任务类别: 对话式
  • 许可证: CC BY-SA 4.0

数据集描述

Schema-Guided Dialogue (SGD) 数据集包含超过20,000个多领域、任务导向的人机对话,涉及20个领域,如银行、事件、媒体、日历、旅行和天气等。SGD-X数据集是SGD的扩展,包含每个模式的5种语言变体,由数百名付费众包工作者编写。

数据集使用

使用此数据集需先安装ConvLab-3平台,并通过以下代码加载数据集:

python from convlab.util import load_dataset, load_ontology, load_database

dataset = load_dataset(sgd3) ontology = load_ontology(sgd3) database = load_database(sgd3)

数据转换

从原始数据获取转换后的数据需执行以下步骤:

  1. 下载 dstc8-schema-guided-dialogue-master.zip
  2. 修改 sgd_x/generate_sgdx_dialogues.py
  3. 运行 python -m sgd_x.generate_sgdx_dialogues
  4. 运行 python preprocess.py

主要转换变化

  • 将原始的 act 改为 intent
  • 为每个领域添加 count 槽,非分类,通过文本匹配找到范围。
  • 根据 intentdialogue acts 进行分类。
  • 使用 | 连接多个值。
  • 保留 active_intent, requested_slots, service_call

支持的任务

  • NLU (自然语言理解)
  • DST (对话状态跟踪)
  • Policy (策略)
  • NLG (自然语言生成)
  • E2E (端到端)

数据分割

分割 对话数 语句数 平均语句数 平均令牌数 平均领域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽范围(对话行为)
训练 16142 329964 20.44 9.75 1.84 100 - 100 100
验证 2482 48726 19.63 9.66 1.84 100 - 100 100
测试 4201 84594 20.14 10.4 2.02 100 - 100 100
全部 22825 463284 20.3 9.86 1.87 100 - 100 100

引用信息

@inproceedings{lee2022sgd, title={SGD-X: A Benchmark for Robust Generalization in Schema-Guided Dialogue Systems}, author={Lee, Harrison and Gupta, Raghav and Rastogi, Abhinav and Cao, Yuan and Zhang, Bin and Wu, Yonghui}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={36}, number={10}, pages={10938--10946}, year={2022} }

许可证信息

CC BY-SA 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作