ConvLab/sgd2
收藏Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/sgd2
下载链接
链接失效反馈官方服务:
资源简介:
SGD-X v2数据集是一个多领域任务导向对话数据集,包含超过20k的对话,涉及20个不同的领域,如银行、事件、媒体、日历、旅行和天气等。这些对话涉及与服务和API的交互,反映了现实世界中的常见场景。数据集支持多种任务,如意图预测、槽填充、对话状态跟踪、策略模仿学习、语言生成和用户模拟学习等。SGD-X数据集是SGD数据集的5个语言变体,由众包工作者编写,用于评估模型在不同语言变体上的性能。数据集的获取需要通过特定的脚本转换原始数据,并且需要安装ConvLab-3平台。数据集的语言为英语,数据分割包括训练集、验证集和测试集。
提供机构:
ConvLab
原始信息汇总
数据集概述
- 名称: SGD-X v2
- 语言: 英语
- 许可: CC BY-SA 4.0
- 大小: 10K<n<100K
- 任务类型: 对话式
数据集内容
- 概述:
- Schema-Guided Dialogue (SGD) 数据集包含超过20,000个多领域、任务导向的人机对话标注。这些对话涉及20个领域的服务和API交互,如银行、事件、媒体、日历、旅行和天气等。
- SGD-X 数据集包含原始SGD数据集中每个模式的5种语言变体,由数百名付费众包工作者编写。SGD-X目录中,v1代表最接近原始模式,v5代表语言距离最远的变体。
数据处理
- 转换方法:
- 下载
dstc8-schema-guided-dialogue-master.zip。 - 修改
sgd_x/generate_sgdx_dialogues.py。 - 运行
python -m sgd_x.generate_sgdx_dialogues和python preprocess.py。 - 主要变化包括:
- 将原始
act改为intent。 - 为每个领域添加
count槽,非分类,通过文本匹配找到范围。 - 根据
intent对对话行为进行分类。 - 使用
|连接多个值。 - 保留
active_intent,requested_slots,service_call。
- 将原始
- 下载
数据集分割
| 分割 | 对话数 | 话语数 | 平均话语数 | 平均令牌数 | 平均领域数 | 分类槽匹配(状态) | 分类槽匹配(目标) | 分类槽匹配(对话行为) | 非分类槽范围(对话行为) |
|---|---|---|---|---|---|---|---|---|---|
| 训练 | 16142 | 329964 | 20.44 | 9.75 | 1.84 | 100 | - | 100 | 100 |
| 验证 | 2482 | 48726 | 19.63 | 9.66 | 1.84 | 100 | - | 100 | 100 |
| 测试 | 4201 | 84594 | 20.14 | 10.4 | 2.02 | 100 | - | 100 | 100 |
| 全部 | 22825 | 463284 | 20.3 | 9.86 | 1.87 | 100 | - | 100 | 100 |
支持的任务
- NLU, DST, Policy, NLG, E2E
引用信息
@inproceedings{lee2022sgd, title={SGD-X: A Benchmark for Robust Generalization in Schema-Guided Dialogue Systems}, author={Lee, Harrison and Gupta, Raghav and Rastogi, Abhinav and Cao, Yuan and Zhang, Bin and Wu, Yonghui}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={36}, number={10}, pages={10938--10946}, year={2022} }
许可信息
- CC BY-SA 4.0
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



