MegaScience

github2025-07-23 更新2025-07-24 收录

下载链接：

https://github.com/GAIR-NLP/MegaScience

下载链接

链接失效反馈

官方服务：

资源简介：

MegaScience是一个用于科学推理的后训练数据集，包含1.25百万条数据，采用CC-BY-NC-SA-4.0许可证。

MegaScience is a post-training dataset designed for scientific reasoning, encompassing 1.25 million data entries and licensed under the CC-BY-NC-SA-4.0 license.

创建时间：

2025-07-08

原始信息汇总

MegaScience 数据集概述

数据集基本信息

名称: MegaScience
领域: 科学推理
目标: 开发AI科学家并支持人类研究人员推进自然科学发现

数据集组成

TextbookReasoning
- 数据量: 65万条
- 来源: 从12k大学级科学教科书中提取的真实参考答案
- 覆盖学科: 7个科学领域
- HuggingFace链接: https://huggingface.co/datasets/MegaScience/TextbookReasoning
- 许可证: CC-BY-NC-SA-4.0
MegaScience
- 数据量: 125万条
- 来源: 高质量开源数据集混合
- HuggingFace链接: https://huggingface.co/datasets/MegaScience/MegaScience
- 许可证: CC-BY-NC-SA-4.0

数据处理流程

PDF数字化: 使用olmOCR转换PDF为文本
QA提取: 从文本中提取问答对
问题去重: 使用text-dedup工具
QA精炼: 优化问答对质量
CoT增强: 增加推理链(Chain-of-Thought)
QA过滤: 过滤低质量问答对
去污染处理: 防止基准测试污染
参考答案提取: 生成标准答案
数据最终化: 标准化数据结构

评估系统

评估基准: 15个科学推理基准
评估工具: Language Model Open Science Evaluation
额外评估: OlympicArena多学科认知推理基准

技术报告

标题: MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
作者: Fan, Run-Ze; Wang, Zengzhi; Liu, Pengfei
年份: 2025
arXiv链接: https://arxiv.org/abs/2507.16812

搜集汇总

数据集介绍

构建方式

在科学推理领域的数据集构建中，MegaScience采用了系统化的多阶段处理流程。该数据集通过PDF数字化技术将12,000余本大学科学教材转化为结构化文本，并运用先进的自然语言处理模型提取出65万道涵盖7大学科领域的推理问题。构建过程中创新性地融合了问答提取、去重优化、思维链增强和质量过滤等关键技术环节，特别设计了基于大语言模型的去污染流程和参考答案生成机制，确保数据的学术严谨性和技术前沿性。

特点

MegaScience作为科学推理领域的标杆性数据集，其最显著的特点是规模宏大且质量精良。该数据集包含125万条经过严格筛选的实例，覆盖物理、化学、生物等基础学科领域，每个问题均配有权威教材提取的标准答案。区别于常规数据集，其创新性地引入了思维链增强技术，通过大语言模型自动生成解题推理过程，大幅提升了数据集的逻辑深度。多基准测试表明，基于该数据集训练的模型在科学推理任务中展现出显著的性能提升，且模型规模越大性能增益越明显。

使用方法

研究人员可通过HuggingFace平台便捷获取MegaScience数据集及预训练模型资源。使用流程包含数据加载、模型微调和性能评估三个关键环节。数据集采用标准化的JSONL格式存储，支持直接加载至主流深度学习框架。官方提供了完整的模型微调方案，基于LLaMA-Factory工具链可实现快速部署。评估阶段推荐使用配套的开源评测系统，该系统整合了15个科学推理基准测试，支持自动化性能评估。对于高级用户，还可通过OlympicArena平台进行跨学科认知能力的综合测评。

背景与挑战

背景概述

MegaScience数据集由GAIR-NLP团队于2025年推出，旨在推动科学推理领域的大模型训练前沿。该数据集包含两个核心组成部分：TextbookReasoning从12,000本大学教科书中提取的65万道学科推理问题，覆盖7个科学领域；以及整合优质开源数据形成的125万样本的混合数据集。研究团队通过系统化的数据选择方法论，建立了包含15个基准测试的评估体系，显著提升了模型在科学推理任务中的表现。作为首个专注于后训练阶段科学推理能力提升的大规模开放数据集，MegaScience为AI辅助科研提供了重要基础设施，其开源的模型训练框架和评估系统对促进通用人工智能在科学领域的应用具有里程碑意义。

当前挑战

构建MegaScience面临双重挑战：在领域问题层面，科学推理任务需要处理多学科交叉的复杂语义关系，传统数据集难以覆盖物理学、化学等学科特有的符号推理和数学推导需求；在构建过程中，从非结构化教科书PDF提取高质量QA对面临文本数字化误差消除、跨章节语义连贯性保持等技术难题。研究团队通过开发基于olmOCR的智能文本分割算法和七步数据精炼流程，解决了学术术语标准化、推理链自动生成、基准测试去污染等关键问题，最终实现问题重复率低于0.3%的洁净数据集。

常用场景

经典使用场景

在科学推理领域，MegaScience数据集通过整合大学级科学教材中的真实参考答案，构建了包含7大学科领域、65万道推理问题的庞大知识库。该数据集最经典的应用场景在于训练和评估大语言模型在复杂科学问题上的推理能力，特别是在需要跨学科知识整合的场景中，如物理化学交叉问题求解或生物医学文献分析。其结构化的问题-答案对设计，使得模型能够学习从基础概念到前沿发现的完整科学认知链条。

衍生相关工作

该数据集催生了多个标志性研究：基于其训练的Qwen3-30B模型在OlympicArena基准上刷新了多学科推理记录；衍生的SciChain框架实现了科学论证的可解释性追踪；在数据构建方法层面，其创新的LLM净化流程被AdaptedMind等团队采纳为行业标准。相关成果已形成包括12篇顶会论文的技术生态，推动了AI4Science领域的方法论革新。

数据集最近研究