onestopqa-injected-new

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/NiklasPythonstein/onestopqa-injected-new

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含阅读理解任务相关的结构化数据，主要特征包括：文章标题(title)、段落内容(paragraph)、难度等级(level，分为Adv/Int/Ele三级)、问题(question)、段落索引(paragraph_index)、四个候选答案(answers)、答案位置标记(a_span和d_span)、关键索引(key_index)、标签(label)以及错误类型(flaw_type)。数据集包含7个子集，每个子集包含480个样本，总数据量约2.98MB。子集按错误类型划分，包括：重复关键信息(double_key)、错误关键信息(incorrect_key)、缺失关键片段(missing_critical_span)、缺失关键信息(missing_key)、逐字关键信息(verbatim_key)、不合理干扰项(unreasonable_distractors)和不可回答问题(unanswerable_question)。该数据集适用于机器阅读理解模型的训练与评估，特别关注对问答系统中各类错误类型的检测与分析。

创建时间：

2026-04-12

原始信息汇总

数据集概述

基本信息

数据集名称: onestopqa-injected-new
来源平台: Hugging Face
数据集地址: https://huggingface.co/datasets/NiklasPythonstein/onestopqa-injected-new

数据集结构

特征字段

title: 标题 (字符串类型)
paragraph: 段落文本 (字符串类型)
level: 难度等级 (分类标签类型)
- 标签映射: 0 -> Adv, 1 -> Int, 2 -> Ele
question: 问题文本 (字符串类型)
paragraph_index: 段落索引 (int32类型)
answers: 答案选项列表 (字符串列表类型，固定长度为4)
a_span: 答案跨度列表 (int32列表类型)
d_span: 干扰项跨度列表 (int32列表类型)
key_index: 关键索引 (int64类型)
label: 标签 (int64类型)
flaw_type: 缺陷类型 (字符串类型)

数据划分

数据集包含6个划分，每个划分包含480个样本：

double_key: 大小448,833字节
incorrect_key: 大小445,253字节
missing_critical_span: 大小364,211字节
missing_key: 大小448,187字节
unreasonable_distractors: 大小448,476字节
unanswerable_question: 大小378,142字节

技术规格

下载大小: 1,004,548字节
数据集总大小: 2,533,102字节
默认配置名称: default
数据文件路径模式: 每个划分对应data/[划分名称]-*路径模式

搜集汇总

数据集介绍

构建方式

在机器阅读理解领域，数据质量对模型性能具有决定性影响。OneStopQA-injected-new数据集通过系统化的人工注入方法构建，基于原始OneStopQA语料，针对六种特定缺陷类型——包括重复关键信息、错误关键信息、缺失关键片段、缺失关键信息、不合理干扰项及不可回答问题——进行了精心设计的数据污染。每个缺陷类别均包含480个样本，确保了缺陷分布的均衡性与代表性，为评估模型对噪声数据的鲁棒性提供了结构化基准。

使用方法

使用该数据集时，研究者可依据不同缺陷分割进行针对性实验。例如，在模型鲁棒性评估中，可分别加载各缺陷子集，测试模型在存在重复关键信息或缺失关键片段等情况下的性能变化。数据集中提供的答案位置跨度与关键索引支持基于位置的评估指标计算。该数据集适用于监督学习、对抗训练以及缺陷检测模型的开发，为提升机器阅读理解系统的可靠性与可解释性提供了重要工具。

背景与挑战

背景概述

在机器阅读理解领域，高质量的数据集对于模型评估与优化至关重要。OneStopQA-injected-new数据集由相关研究团队于近年构建，旨在系统性地探究阅读理解模型中存在的各类缺陷与偏差。该数据集通过精心设计的注入式方法，模拟了真实场景中可能出现的多种错误类型，如关键信息缺失、干扰项不合理等，为深入分析模型鲁棒性提供了标准化基准。其核心研究问题聚焦于如何量化并缓解模型在复杂问答任务中的脆弱性，对推动自然语言处理技术的可靠应用具有显著影响力。

当前挑战

该数据集致力于解决机器阅读理解中模型鲁棒性评估的挑战，具体包括模型对关键信息缺失、错误答案干扰以及不可回答问题等复杂情境的应对能力。在构建过程中，挑战主要体现为如何精确模拟多样化的缺陷类型，确保注入的异常既符合自然语言分布，又能有效揭示模型弱点。同时，平衡数据集的规模与标注质量，避免引入人为偏差，也是构建过程中需要克服的关键难题。

常用场景

经典使用场景

在机器阅读理解领域，onestopqa-injected-new数据集通过精心设计的缺陷类型，如重复关键信息或缺失关键片段，为模型鲁棒性评估提供了标准化的测试平台。研究者利用该数据集模拟真实文本中可能出现的逻辑不一致或信息冗余场景，从而系统性地检验模型在复杂语境下的推理与理解能力。这种基于缺陷注入的方法，使得评估过程更具针对性，能够深入揭示模型在处理异常文本时的局限性。

解决学术问题

该数据集主要针对机器阅读理解中模型对文本缺陷的敏感性问题，通过引入多种人工构造的缺陷类型，如不可回答问题或不合理干扰项，解决了现有评估方法在缺陷检测方面的不足。它帮助学术界系统性地探究模型在面对信息缺失、逻辑矛盾等挑战时的表现，推动了鲁棒性评估框架的发展，并为理解模型失败模式提供了实证基础，从而促进了更可靠、更健壮的自然语言处理系统的构建。

实际应用

在实际应用中，onestopqa-injected-new数据集可用于优化智能问答系统和教育辅助工具，通过模拟用户可能遇到的错误或模糊查询，提升系统在真实场景中的容错能力。例如，在在线学习平台中，该数据集帮助开发更精准的自动评分机制，识别学生答案中的逻辑缺陷；在客服机器人领域，它增强了系统对不完整或矛盾用户输入的理解，提高了交互的准确性与用户体验。

数据集最近研究