ConvLab/sgd3
收藏数据集概述
- 名称: SGD-X v3
- 语言: 英语
- 大小: 10K<n<100K
- 任务类别: 对话式
- 许可证: CC BY-SA 4.0
数据集描述
Schema-Guided Dialogue (SGD) 数据集包含超过20,000个多领域、任务导向的人机对话,涉及20个领域,如银行、事件、媒体、日历、旅行和天气等。SGD-X数据集是SGD的扩展,包含每个模式的5种语言变体,由数百名付费众包工作者编写。
数据集使用
使用此数据集需先安装ConvLab-3平台,并通过以下代码加载数据集:
python from convlab.util import load_dataset, load_ontology, load_database
dataset = load_dataset(sgd3) ontology = load_ontology(sgd3) database = load_database(sgd3)
数据转换
从原始数据获取转换后的数据需执行以下步骤:
- 下载
dstc8-schema-guided-dialogue-master.zip。 - 修改
sgd_x/generate_sgdx_dialogues.py。 - 运行
python -m sgd_x.generate_sgdx_dialogues。 - 运行
python preprocess.py。
主要转换变化
- 将原始的
act改为intent。 - 为每个领域添加
count槽,非分类,通过文本匹配找到范围。 - 根据
intent对dialogue acts进行分类。 - 使用
|连接多个值。 - 保留
active_intent,requested_slots,service_call。
支持的任务
- NLU (自然语言理解)
- DST (对话状态跟踪)
- Policy (策略)
- NLG (自然语言生成)
- E2E (端到端)
数据分割
| 分割 | 对话数 | 语句数 | 平均语句数 | 平均令牌数 | 平均领域数 | 分类槽匹配(状态) | 分类槽匹配(目标) | 分类槽匹配(对话行为) | 非分类槽范围(对话行为) |
|---|---|---|---|---|---|---|---|---|---|
| 训练 | 16142 | 329964 | 20.44 | 9.75 | 1.84 | 100 | - | 100 | 100 |
| 验证 | 2482 | 48726 | 19.63 | 9.66 | 1.84 | 100 | - | 100 | 100 |
| 测试 | 4201 | 84594 | 20.14 | 10.4 | 2.02 | 100 | - | 100 | 100 |
| 全部 | 22825 | 463284 | 20.3 | 9.86 | 1.87 | 100 | - | 100 | 100 |
引用信息
@inproceedings{lee2022sgd, title={SGD-X: A Benchmark for Robust Generalization in Schema-Guided Dialogue Systems}, author={Lee, Harrison and Gupta, Raghav and Rastogi, Abhinav and Cao, Yuan and Zhang, Bin and Wu, Yonghui}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={36}, number={10}, pages={10938--10946}, year={2022} }



