lmqg/qg_zhquad
收藏数据集卡片 "lmqg/qg_zhquad"
数据集描述
- 数据集名称: Chinese SQuAD for question generation
- 许可证: cc-by-4.0
- 语言: 中文
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 任务类别:
- 文本生成
- 任务ID:
- 语言建模
- 标签:
- 问题生成
数据集概述
该数据集是 QG-Bench 的一个子集,QG-Bench 是一个统一的问题生成基准,提出于 "Generative Language Models for Paragraph-Level Question Generation: A Unified Benchmark and Evaluation, EMNLP 2022 main conference"。这是 Chinese SQuAD 的一个修改版本,用于问题生成(QG)任务。由于原始数据集仅包含训练/验证集,我们从训练集中手动采样测试集,测试集与训练集在段落方面没有重叠。
支持的任务和排行榜
- 问题生成: 该数据集用于训练问题生成模型。任务的成功通常通过实现高 BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore 来衡量(详见我们的论文)。
语言
意大利语 (it)
数据集结构
数据字段在所有拆分中相同。
question: 一个string特征。paragraph: 一个string特征。answer: 一个string特征。sentence: 一个string特征。paragraph_answer: 一个string特征,与段落相同,但答案由特殊标记<hl>突出显示。paragraph_sentence: 一个string特征,与段落相同,但包含答案的句子由特殊标记<hl>突出显示。sentence_answer: 一个string特征,与句子相同,但答案由特殊标记<hl>突出显示。
每个 paragraph_answer, paragraph_sentence, 和 sentence_answer 特征用于训练问题生成模型,但具有不同的信息。paragraph_answer 和 sentence_answer 特征用于答案感知问题生成,而 paragraph_sentence 特征用于句子感知问题生成。
数据拆分
| 训练集 | 验证集 | 测试集 |
|---|---|---|
| 59977 | 8236 | 8236 |
引用信息
@inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }



