EduScopeQA

Name: EduScopeQA
Creator: West Chester University of Pennsylvania 计算机科学系
Published: 2025-09-09 23:22:33
License: 暂无描述

arXiv2025-09-09 更新2025-09-11 收录

下载链接：

https://github.com/Amay-J/EduScopeQA

下载链接

链接失效反馈

官方服务：

资源简介：

EduScopeQA 是一个针对中学和高等教育应用的问答数据集，包含 3,176 个问答对，涵盖历史、文学、科学和计算机科学四个学科，总共有 210 万个 tokens。数据集由四部分组成，分别是历史、文学、科学和计算机科学。每个学科都包含不同长度、风格和信息的文本，以模拟真实课堂环境。数据集中的问题分为三类：具体问题、部分问题和主题问题。EduScopeQA 的创建过程包括文本分割、内容筛选、层次化摘要、具体/部分问题生成、主题问题生成和过滤与审查。EduScopeQA 的应用领域是教育技术，旨在解决大型语言模型在教育场景中提供不准确或过时信息的问题。

EduScopeQA is a question-answering dataset designed for secondary and higher education applications. It contains 3,176 question-answer pairs across four disciplines: history, literature, science, and computer science, with a total of 2.1 million tokens. The dataset is composed of four segments corresponding to each of the aforementioned disciplines. Each segment includes texts with varying lengths, writing styles, and informational contents, to simulate real classroom environments. Questions in the dataset are divided into three categories: specific questions, partial questions, and topical questions. The development workflow of EduScopeQA covers text segmentation, content filtering, hierarchical summarization, generation of specific and partial questions, generation of topical questions, as well as filtering and review procedures. EduScopeQA is targeted for educational technology applications, aiming to resolve the problem where large language models (LLMs) provide inaccurate or outdated information in educational scenarios.

提供机构：

West Chester University of Pennsylvania 计算机科学系

创建时间：

2025-09-09

原始信息汇总

EduScopeQA 数据集概述

数据集简介

EduScopeQA 是一个综合性问答数据集，专为教育场景下的检索增强生成（RAG）系统评估而设计。

数据集构成

学科领域

历史：包含本杰明·富兰克林、托马斯·潘恩、弗雷德里克·道格拉斯和约翰·梅纳德·凯恩斯的著作
文学：包括《白鲸记》和《小妇人》等经典小说
科学：完整的 OpenStax 微生物学教科书

数据统计

学科	来源文本	字数	具体问题	章节问题	主题问题
文学	《白鲸记》和《小妇人》	397,148	679	80	40
历史	6 部历史著作	384,136	713	77	38
科学	OpenStax 微生物学	397,994	678	80	20
总计		1,179,278	2,070	237	98

总计：3 个学术领域的 2,405 个问答对，包含超过 118 万字的大学级别内容

关键特性

2,405 个问答对，涵盖三个学术领域
超过 118 万字的真实学术材料
源文本未包含，需使用提供的下载脚本获取材料

问题类型

具体问题：可从单个段落（约 500 字）回答的狭窄查询
章节问题：需要跨多个段落（约 5,000 字）的信息综合
主题问题：需要理解总体主题的广泛查询

目的

测试教学变化：比较不同学科和问题复杂度的性能
真实教育内容：使用实际课程材料而非维基百科或新闻文章
多粒度评估：评估事实回忆和主题理解

文件结构

EduScopeQA/ ├── history/ │ └── questions.json ├── literature/ │ └── questions.json ├── science/ │ └── questions.json └── download_sources.py

获取源材料

历史文本：6 部来自古登堡计划（公共领域）的历史著作
文学作品：2 部来自古登堡计划（公共领域）的经典小说
科学教科书：OpenStax 微生物学教科书（开放许可）

许可证

文学与历史文本：美国公共领域，无版权限制
科学教科书：知识共享署名 4.0 国际许可（CC BY 4.0）
问答对和元数据：知识共享署名 4.0 国际许可（CC BY 4.0）

搜集汇总

数据集介绍

构建方式

EduScopeQA数据集的构建采用分层生成策略，涵盖历史、文学、科学和计算机科学四大学科，总计3176个问答对。首先对原始文本进行分块与章节划分，通过GPT-4.1模型过滤无关内容并生成层级摘要；随后基于局部章节和全局摘要分别生成具体型、章节型和主题型问题，确保问题与教育场景的多样性和深度相匹配；最终通过多轮过滤保证问答对的教育相关性和逻辑严谨性。

使用方法

EduScopeQA主要用于评估检索增强生成（RAG）系统在教育场景下的性能，支持基于学科、问题类型和文本规模的多维分析。使用者可上传完整学科语料至向量检索或知识图谱检索系统，通过输入开放性问题测试模型在事实准确性、解释全面性和教学价值等方面的表现。该数据集还可与KnowShiftQA结合，检验系统在知识更新场景下的鲁棒性，为教育AI系统的部署提供实证依据。

背景与挑战

背景概述

EduScopeQA数据集由Amay Jain与西切斯特宾夕法尼亚大学计算机科学系团队于2025年创建，旨在解决大语言模型在教育场景中的知识对齐问题。该数据集涵盖历史、文学、科学与计算机科学四大学科，包含3,176个开放性问题及其文本语料，总规模达210万词元。其核心研究聚焦于检索增强生成技术（RAG）在课堂问答中的适用性，通过多粒度问题类型（具体事实、章节综合与主题推理）评估模型性能，为教育人工智能系统提供跨学科、多层次的评估基准，推动了课程知识对齐与教学适应性研究的发展。

当前挑战

EduScopeQA针对教育领域问答任务的核心挑战在于处理多学科文本的异构性与教学需求的多样性：需同时支持精确事实检索与复杂主题推理，并抵抗课程知识更新导致的模型过时信息依赖。构建过程中面临三重挑战：一是长文本层次化摘要与问题生成的复杂性，需通过递归压缩保持语义完整性；二是多类型问题（具体、章节、主题）的平衡设计，以确保评估覆盖教学全场景；三是文本来源的版权与教育适用性筛选，需协调开源资源与课程标准的对齐。

常用场景

经典使用场景

EduScopeQA数据集在智能教育问答系统中扮演核心角色，其经典使用场景聚焦于多学科课堂环境下的精准知识检索与生成。该数据集通过涵盖历史、文学、科学和计算机科学四大领域的3176个开放性问题，模拟真实教学中从具体事实查询到宏观主题探讨的多层次问答需求。例如，在文学课程中，系统需解析《白鲸记》中捕鲸人教堂的象征意义；在科学课堂中，则需准确回答土壤细菌反硝化作用涉及的菌属名称。这种设计使EduScopeQA成为评估检索增强生成（RAG）模型在教育场景中适应性的黄金标准。

解决学术问题

EduScopeQA有效解决了教育人工智能领域三大核心学术问题：一是缓解大语言模型在教学中产生幻觉信息与课程标准错位的风险，通过外部知识检索确保答案可靠性；二是应对课程知识动态更新的挑战，借助KnowShiftQA子集测试模型对系统性修订知识的适应能力；三是量化不同RAG范式在跨学科、多粒度问题中的性能差异，为教育技术部署提供实证依据。该数据集通过引入学科差异性、问题类型分层及资源约束评估，填补了现有教育数据集中在多模态文本结构与教学对齐性方面的空白。

实际应用

在实际教学场景中，EduScopeQA支撑的RAG系统已应用于自适应辅导、智能阅卷和课程内容动态维护等领域。基于向量检索的OpenAI RAG适用于快速词汇查询和章节级事实应答，如物理课上即时解释红外线夜视仪原理；GraphRAG Global则服务于研讨课中的主题论述，如历史课程中分析巴黎和会的整体影响；GraphRAG Local在大型教科书（如25万字生物学教材）的多选题生成和知识更新维护中展现卓越准确性。这些应用显著降低了教师重复性答疑负担，同时保障了课程内容与最新学科标准的一致性。

数据集最近研究