lmqg/qg_dequad|自然语言处理数据集|问题生成数据集
收藏数据集卡片 for "lmqg/qg_dequad"
数据集描述
- 数据集名称: GermanQuAD for question generation
- 许可证: cc-by-4.0
- 语言: 德语 (de)
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据集: deepset/germanquad
- 任务类别:
- 文本生成
- 任务ID:
- 语言模型
- 标签:
- 问题生成
数据集摘要
这是 QG-Bench 的一个子集,QG-Bench 是一个统一的问题生成基准,在 "Generative Language Models for Paragraph-Level Question Generation: A Unified Benchmark and Evaluation, EMNLP 2022 main conference" 中提出。这是 GermanQuAD 的修改版本,用于问题生成 (QG) 任务。由于原始数据集仅包含训练/验证集,我们手动从训练集中采样测试集,该测试集与训练集在段落方面没有重叠。
支持的任务和排行榜
question-generation: 该数据集用于训练问题生成模型。成功完成此任务通常通过获得高 BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore 来衡量(详见我们的论文)。
语言
西班牙语 (es)
数据集结构
一个 train 示例如下: json { "answer": "elektromagnetischer Linearführungen", "question": "Was kann den Verschleiß des seillosen Aufzuges minimieren?", "sentence": "Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung elektromagnetischer Linearführungen gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei hohem Fahrkomfort zu minimieren.", "paragraph": "Aufzugsanlage
=== Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durch z...", "sentence_answer": "Im Rahmen der Forschungen an dem seillosen Aufzug wird ebenfalls an der Entwicklung <hl> elektromagnetischer Linearführungen <hl> gearbeitet, um den Verschleiß der seillosen Aufzugsanlage bei...", "paragraph_answer": "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei durc...", "paragraph_sentence": "Aufzugsanlage === Seilloser Aufzug === An der RWTH Aachen im Institut für Elektrische Maschinen wurde ein seilloser Aufzug entwickelt und ein Prototyp aufgebaut. Die Kabine wird hierbei du..." }
数据字段
所有分割的数据字段相同:
question: 一个string特征。paragraph: 一个string特征。answer: 一个string特征。sentence: 一个string特征。paragraph_answer: 一个string特征,与段落相同,但答案由特殊标记<hl>突出显示。paragraph_sentence: 一个string特征,与段落相同,但包含答案的句子由特殊标记<hl>突出显示。sentence_answer: 一个string特征,与句子相同,但答案由特殊标记<hl>突出显示。
每个 paragraph_answer, paragraph_sentence, 和 sentence_answer 特征用于训练问题生成模型,但具有不同的信息。paragraph_answer 和 sentence_answer 特征用于答案感知问题生成,而 paragraph_sentence 特征用于句子感知问题生成。
数据分割
| train | validation | test |
|---|---|---|
| 9314 | 2204 | 2204 |
引用信息
bibtex @inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }



