five

ConvLab/sgd1

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/sgd1
下载链接
链接失效反馈
官方服务:
资源简介:
Schema-Guided Dialogue (SGD) 数据集包含超过20k条多领域任务导向对话,涉及20个不同领域的服务和API交互,如银行、事件、媒体、日历、旅行和天气等。SGD-X数据集是原始SGD数据集的5种语言变体,由数百名付费众包工作者编写。这些变体从v1到v5在语言距离上逐渐远离原始模式。数据集支持多种任务,如意图预测、槽填充、对话状态跟踪、策略模仿学习、语言生成和用户模拟学习等。此外,数据集的评估集中包含未见过的领域和服务,以量化零样本或少样本设置下的性能。
提供机构:
ConvLab
原始信息汇总

数据集概述

  • 名称: SGD-X v1
  • 语言: 英语
  • 许可: CC BY-SA 4.0
  • 大小: 10K<n<100K
  • 任务类别: 对话式

数据集详情

  • 概述: SGD-X v1是Schema-Guided Dialogue (SGD)数据集的扩展,包含超过20k的多领域、任务导向的人机对话。这些对话涉及20个领域的服务和API交互。SGD-X数据集包含原始SGD数据集的5种语言变体,由数百名付费众包工作者编写。
  • 数据转换: 使用generate_sgdx_dialogues.py脚本将原始数据转换为SGD-X格式。主要变化包括将原始act更名为intent,为每个领域添加count槽,根据intent分类dialogue acts,使用|连接多个值,保留active_intent, requested_slots, service_call
  • 支持的任务: NLU, DST, Policy, NLG, E2E
  • 数据分割:
    • 训练: 16,142对话,329,964语句
    • 验证: 2,482对话,48,726语句
    • 测试: 4,201对话,84,594语句
    • 总计: 22,825对话,463,284语句

引用信息

@inproceedings{lee2022sgd, title={SGD-X: A Benchmark for Robust Generalization in Schema-Guided Dialogue Systems}, author={Lee, Harrison and Gupta, Raghav and Rastogi, Abhinav and Cao, Yuan and Zhang, Bin and Wu, Yonghui}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={36}, number={10}, pages={10938--10946}, year={2022} }

许可信息

CC BY-SA 4.0

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作