Cloze_QA_Dataset_Wikitext2
收藏Cloze QA Dataset (WikiText-2) 数据集概述
数据集描述
- 数据集基于WikiText-2语料库自动生成
- 包含填空式问题,直接来源于维基百科文章中的句子
- 适用于评估局部回忆、阅读理解和上下文理解能力
- 每个文档生成三个唯一的问答对,保持文档结构和句子对齐
- 问答对以JSONL格式存储,每个条目与特定句子关联
数据集结构
| 数据分割 | 文档数量 | 问答对数量 | 用途说明 |
|---|---|---|---|
| 训练集 | 5,135 | 15,405 | 模型训练和评估 |
| 验证集 | 502 | 1,506 | 超参数调优 |
| 测试集 | 569 | 1,707 | 最终性能基准测试 |
数据示例
json { "doc_id": 0, "sent_id": 8, "title": "Robert Boulter", "question": "He appeared on a 2006 episode of the television series , ____ ,", "answer": "Doctors" }
文件结构
cloze_qa_dataset/ ├── train/ │ └── qa.jsonl ├── val/ │ └── qa.jsonl └── test/ └── qa.jsonl
适用用途
- 训练问答模型(抽取式或生成式)
- 基准测试类问答任务
- 基于知识的推理研究
数据来源
- 由台湾长庚大学计算机科学与信息工程系网络信息与数据工程实验室收集和整理
许可协议
- 采用CC BY-SA 4.0许可协议发布
引用信息
@misc{CGU-Widelab/Cloze_QA_Dataset_Wikitext2, title={Cloze_QA_Dataset_Wikitext2}, author={WIDELab – Web Information & Data Engineering Laboratory, Chang Gung University}, year={2025}, howpublished={url{https://huggingface.co/datasets/CGU-Widelab/Cloze_QA_Dataset_Wikitext2}}, note={Accessed: 2025-10-25} }
@inproceedings{chaithra2025optimizingrag, title={Optimizing Retrieval in RAG Systems with Reinforcement Learning: A Trade-off Between Quality and Cost}, author={Mahadevaswamy, Chaithra Lokasara and Nguyen, Khoa and Singh, Mayank and Chang, Hsien-Tsung}, booktitle={Proceedings of the 9th International Conference on Natural Language Processing and Information Retrieval (NLPIR 2025)}, year={2025}, address={Fukuoka, Japan} }




