Cloze_QA_Dataset_Wikitext2

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/CGU-Widelab/Cloze_QA_Dataset_Wikitext2

下载链接

链接失效反馈

官方服务：

资源简介：

Cloze QA 数据集是从 WikiText-2 语料库自动生成的填空式问题回答数据集。它包含直接从维基百科文章句子中派生出的填空式问题，特别适合用于评估局部回忆、阅读理解和上下文理解能力。每个文档生成三个独特的问答对，并且保持了文档结构和句子对齐，避免了冗余。数据集以JSONL格式存储，分为训练集、验证集和测试集。

创建时间：

2025-10-25

原始信息汇总

Cloze QA Dataset (WikiText-2) 数据集概述

数据集描述

数据集基于WikiText-2语料库自动生成
包含填空式问题，直接来源于维基百科文章中的句子
适用于评估局部回忆、阅读理解和上下文理解能力
每个文档生成三个唯一的问答对，保持文档结构和句子对齐
问答对以JSONL格式存储，每个条目与特定句子关联

数据集结构

数据分割	文档数量	问答对数量	用途说明
训练集	5,135	15,405	模型训练和评估
验证集	502	1,506	超参数调优
测试集	569	1,707	最终性能基准测试

数据示例

json { "doc_id": 0, "sent_id": 8, "title": "Robert Boulter", "question": "He appeared on a 2006 episode of the television series , ____ ,", "answer": "Doctors" }

文件结构

cloze_qa_dataset/ ├── train/ │ └── qa.jsonl ├── val/ │ └── qa.jsonl └── test/ └── qa.jsonl

适用用途

训练问答模型（抽取式或生成式）
基准测试类问答任务
基于知识的推理研究

数据来源

由台湾长庚大学计算机科学与信息工程系网络信息与数据工程实验室收集和整理

许可协议

采用CC BY-SA 4.0许可协议发布

引用信息

@misc{CGU-Widelab/Cloze_QA_Dataset_Wikitext2, title={Cloze_QA_Dataset_Wikitext2}, author={WIDELab – Web Information & Data Engineering Laboratory, Chang Gung University}, year={2025}, howpublished={url{https://huggingface.co/datasets/CGU-Widelab/Cloze_QA_Dataset_Wikitext2}}, note={Accessed: 2025-10-25} }

@inproceedings{chaithra2025optimizingrag, title={Optimizing Retrieval in RAG Systems with Reinforcement Learning: A Trade-off Between Quality and Cost}, author={Mahadevaswamy, Chaithra Lokasara and Nguyen, Khoa and Singh, Mayank and Chang, Hsien-Tsung}, booktitle={Proceedings of the 9th International Conference on Natural Language Processing and Information Retrieval (NLPIR 2025)}, year={2025}, address={Fukuoka, Japan} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，Cloze_QA_Dataset_Wikitext2数据集通过自动化方法从WikiText-2语料库中生成填空式问答对。构建过程严格遵循文档结构，每个维基百科文档精确提取三个独特的问答组合，确保句子对齐并避免冗余。原始文本中的关键实体被系统性地替换为空白，形成标准化的完形填空问题，所有数据以JSONL格式存储并保持与原文句子的对应关系。

特点

该数据集以知识推理为核心特色，包含18,618个精心设计的完形填空问答对，涵盖训练集、验证集和测试集的完整划分体系。每个问答实例均包含文档标识、句子索引、文章标题以及具有明确答案的填空问题，这种结构特别适合评估模型的局部回忆能力和上下文理解水平。数据来源于经过筛选的维基百科文本，保证了语言质量和知识覆盖的广度。

使用方法

研究者可通过加载标准JSONL文件直接使用该数据集，其文件结构按训练集、验证集和测试集清晰组织。该资源适用于问答模型的训练与评估，尤其适合知识驱动型推理任务的基准测试。使用过程中需遵循CC BY-SA 4.0许可协议，并可通过引用相关学术文献支持后续研究工作的开展。

背景与挑战

背景概述

在自然语言处理领域，完形填空式问答任务作为评估机器阅读理解能力的重要范式，由长庚大学网络信息与数据工程实验室于2025年构建的Cloze_QA_Dataset_Wikitext2数据集应运而生。该数据集基于WikiText-2语料库自动生成，通过从维基百科条目中提取句子并构建填空式问题，旨在探究模型对文本局部信息的召回能力与上下文理解机制。其核心研究聚焦于知识推理与机器阅读理解的交叉领域，为检索增强生成系统的优化研究提供了标准化评估基准。

当前挑战

该数据集致力于解决知识型问答任务中语义连贯性与实体关联性的核心难题，要求模型在缺失关键信息的语境下完成精确补全。构建过程中面临双重挑战：一方面需维持原始文档的语义结构与句法完整性，避免因自动生成导致的逻辑断裂；另一方面需通过算法控制确保每个文档仅生成三个非重复问答对，在数据多样性与质量平衡中实现技术突破。

常用场景

经典使用场景

在自然语言处理领域，Cloze_QA_Dataset_Wikitext2作为填空式问答任务的基准数据集，广泛应用于评估模型的局部回忆与上下文理解能力。其经典使用场景包括训练生成式或抽取式问答系统，通过模拟人类阅读过程中的信息补全机制，检验模型对维基百科文本中实体与语义关系的捕捉精度。该数据集通过严格控制每个文档生成三个问答对的策略，有效避免了数据冗余，为机器阅读理解研究提供了标准化测试环境。

实际应用

在实际应用层面，该数据集为智能教育系统和知识检索工具的开发提供了重要支撑。教育科技领域可借助其填空机制设计自适应学习系统，通过实时评估用户对文本关键信息的掌握程度。企业级知识库系统则利用该数据集优化文档理解模块，提升对专业文献的自动摘要与问答精度，最终实现更高效的数字化知识管理解决方案。

衍生相关工作

基于该数据集衍生的经典工作主要集中在增强检索生成系统领域。如2025年NLPIR会议上发表的《基于强化学习的RAG系统检索优化》研究，通过该数据集验证了质量与成本权衡的新型算法。后续研究进一步拓展了多跳推理与跨文档关联任务，催生了系列结合知识图谱与神经网络的混合模型，持续推动着开放域问答技术的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集