five

MegaScience

收藏
Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/MegaScience/MegaScience
下载链接
链接失效反馈
官方服务:
资源简介:
MegaScience是一个包含125万个实例的大规模高质量开源科学推理数据集。它由多个公开数据集混合而成,经过综合的数据选择和清洗过程,为科学推理任务提供了高质量的数据子集。数据集支持训练大规模模型,并在性能上超越了官方的指令模型。

MegaScience is a large-scale high-quality open-source scientific reasoning dataset containing 1.25 million instances. It is curated from multiple public datasets and has undergone a comprehensive data selection and cleaning pipeline, providing high-quality data subsets tailored for scientific reasoning tasks. This dataset supports the training of large-scale models and outperforms official instruction-tuned models in terms of performance.
创建时间:
2025-07-18
原始信息汇总

MegaScience数据集概述

基本信息

  • 许可证: CC-BY-NC-SA 4.0
  • 任务类别: 文本生成
  • 语言: 英语
  • 规模: 1M<n<10M

数据集结构

  • 特征:
    • question (string): 问题
    • answer (string): 答案
    • subject (string): 主题
    • reference_answer (string): 参考答案
    • source (string): 来源
  • 拆分:
    • train:
      • 字节数: 3719840088
      • 样本数: 1253230
  • 下载大小: 1878947811
  • 数据集大小: 3719840088

数据集描述

MegaScience是一个大规模的高质量开源数据集混合体,包含125万个实例。数据集通过以下步骤构建:

  1. 从NaturalReasoning、Nemotron-Science和TextbookReasoning收集源数据
  2. 进行问题去重和基于LLM的去污染处理
  3. 通过全面的消融研究确定每个数据集的最佳数据选择方法
  4. 使用DeepSeek-V3为NaturalReasoning和Nemotron-Science标注逐步解决方案

应用效果

  • 在Llama3.1、Qwen2.5和Qwen3系列基础模型上训练后,其科学推理性能优于官方指导模型
  • 对更大更强的模型表现出更好的效果,显示科学指导调优的规模效益

引用

bibtex @article{fan2025megascience, title={MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning}, author={Fan, Run-Ze and Wang, Zengzhi and Liu, Pengfei}, year={2025}, journal={arXiv preprint arXiv:2507.16812}, url={https://arxiv.org/abs/2507.16812} }

论文链接

https://arxiv.org/abs/2507.16812

搜集汇总
数据集介绍
main_image_url
构建方式
在科学推理领域数据资源日益重要的背景下,MegaScience数据集通过系统化流程构建而成。研究团队首先整合了NaturalReasoning、Nemotron-Science和TextbookReasoning等多个优质开源数据集,采用问题去重和基于大语言模型的去污染处理确保数据纯净度。通过开展全面的消融实验,团队为每个子数据集确定了最优的数据选择方法,并运用DeepSeek-V3模型为大部分数据标注了分步解决方案,最终形成包含125万条样本的高质量科学推理数据集。
特点
作为规模突破百万的科学推理专用数据集,MegaScience展现出显著的领域特性。其核心优势体现在经过严格筛选的样本质量,每条数据均包含问题、参考答案、学科分类和来源信息等结构化字段。特别值得注意的是,该数据集通过标注分步解决方案增强了模型的推理可解释性,且实验证明其对大尺寸模型表现出明显的规模效益,模型性能随参数增长呈现持续提升趋势,为科学领域的指令微调提供了理想基准。
使用方法
该数据集主要面向科学推理任务的模型训练与评估场景。使用者可通过Git LFS工具克隆完整数据集,具体包含问题陈述、标准答案及分步推理过程等关键字段。实践应用时建议结合官方提供的监督微调指南,特别注意数据集对不同规模模型表现出的缩放特性。对于需要复现研究结果的用户,可参考项目GitHub仓库中的数据处理流程和评估方案,该方案已成功应用于Llama3.1和Qwen系列模型的性能提升。
背景与挑战
背景概述
MegaScience数据集由GAIR-NLP团队于2025年推出,旨在推动科学推理领域后训练数据集的前沿发展。该数据集整合了NaturalReasoning、Nemotron-Science和TextbookReasoning等多个高质量开源数据集,经过严格筛选和优化,最终形成包含125万条样本的大规模科学推理语料库。研究人员通过系统性的消融实验确定了各子数据集的最优选择方法,并采用DeepSeek-V3模型为多数样本标注了分步解答。该数据集的建立显著提升了开源社区在科学领域的模型表现,尤其对Llama3.1、Qwen2.5和Qwen3等大模型展现出明显的规模效益。
当前挑战
构建MegaScience数据集面临多重挑战:在领域问题层面,科学推理任务需要处理复杂的跨学科知识整合,涉及物理、化学、生物等多个学科领域的专业表述;在数据构建过程中,研究人员需解决原始数据重复问题,采用基于大语言模型的去污染技术确保数据纯净度。此外,为保持数据质量的一致性,团队需要对不同来源的异构数据进行标准化处理,并通过人工校验确保分步解答标注的准确性。这些挑战的克服为后续科学推理模型的训练奠定了坚实基础。
常用场景
经典使用场景
在科学推理领域,MegaScience数据集以其125万条高质量实例成为研究者的重要资源。该数据集通过整合多个公开数据集并优化数据选择方法,为科学问题解答和推理任务提供了丰富素材。经典应用场景包括训练大型语言模型进行科学问答、多步骤推理以及跨学科知识整合,尤其适合需要深度理解科学概念和逻辑推演的研究。
解决学术问题
MegaScience有效解决了科学教育中复杂概念理解和推理能力评估的难题。通过提供带步骤标注的解答,该数据集支持模型学习科学推理的中间过程,而非简单记忆答案。其规模和质量优势显著提升了模型在物理、化学等学科的表现,填补了开源社区在科学领域高质量训练数据的空白,为AI系统的科学素养评估设立了新基准。
衍生相关工作
MegaScience催生了多个突破性研究,包括Llama3.1和Qwen3系列模型的科学推理优化。相关衍生工作聚焦于数据选择方法的理论探索,以及步骤标注对模型解释性的影响分析。其基准测试框架已成为评估模型科学素养的主流方案,后续研究在此基础上发展了面向特定学科的专业化数据集构建方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作