five

Nemotron-Science-v1

收藏
Hugging Face2025-12-15 更新2025-12-16 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Science-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-Science-v1是一个合成的科学推理数据集,包含两个子集:一个MCQA集,改进了Nemotron-Post-Training-v1的STEM部分,使用GPT-OSS-120B生成GPQA风格的问题和推理轨迹;一个RQA集,包含合成的化学问题。该数据集旨在增强大型语言模型在科学领域的推理能力。数据集适用于商业用途,包含174,155个MCQA样本和52,179个RQA样本,总大小为约2.5 GB。
提供机构:
NVIDIA
创建时间:
2025-12-14
原始信息汇总

Nemotron-Science-v1 数据集概述

数据集基本信息

  • 数据集名称: Nemotron-Science-v1
  • 所有者: NVIDIA Corporation
  • 创建日期: 2025年12月3日
  • 最后修改日期: 2025年12月3日
  • 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0) (https://creativecommons.org/licenses/by/4.0/)
  • 语言: 英语 (en)
  • 商业用途: 已准备就绪,可供商业使用。

数据集描述

Nemotron-Science-v1 是一个合成的科学推理数据集,包含两个子集:一个MCQA(多项选择问答)集和一个RQA(化学问答)集。该数据集旨在增强大型语言模型在科学领域的推理能力。

数据集子集

MCQA 子集

  • 描述: 该子集是对 Nemotron-Post-Training-Dataset-v1 中STEM(科学、技术、工程、数学)部分的改进。它使用 GPT-OSS-120B 生成 GPQA 风格的问题和推理轨迹。包含合成的科学问题,旨在模拟 GPQA 风格的主题和子主题。
  • 目的: 增强大型语言模型在科学领域的推理能力。

RQA 子集

  • 描述: 该数据集由合成的化学问题组成。
  • 目的: 增强大型语言模型在科学领域的推理能力。

数据集特征

  • 数据收集方法: 合成 - 由大型语言模型生成的科学问题与解决方案对。
  • 标注方法: 合成 - 由模型生成的解决方案和注释。

数据集格式

  • 模态: 文本
  • 格式: JSONL
  • 结构: 文本 + 元数据

数据集量化

子集 样本数量
MCQA 174,155
RQA 52,179
总计 226,334
  • 总磁盘大小: 约 2.5 GB

预期用途

本数据集适用于专注于提升科学推理和问题解决能力的LLM工程师和研究团队,用于开发和训练大型语言模型。它适用于基于科学的模型开发流程中的监督训练和数据增强。

伦理考量

NVIDIA 认为可信赖的 AI 是一项共同责任,并已制定政策和实践以支持广泛 AI 应用的开发。开发者在下载或使用本数据集时,应遵循服务条款,并与内部开发团队合作,确保该数据集满足相关行业和用例的要求,并解决不可预见的产品误用问题。

搜集汇总
数据集介绍
main_image_url
构建方式
在科学推理数据集的构建领域,Nemotron-Science-v1采用了前沿的合成生成策略。该数据集主要包含两个子集:MCQA子集通过GPT-OSS-120B大型语言模型,在原有STEM数据基础上生成了模仿GPQA风格的科学问题及其推理轨迹;RQA子集则专门合成了化学领域的问答对。整个构建过程完全依赖模型自动化生成,确保了数据的大规模与一致性,为科学推理任务提供了高质量的训练资源。
特点
Nemotron-Science-v1的显著特点在于其纯粹合成性与领域针对性。数据集总计包含超过22.6万个样本,其中MCQA子集拥有17.4万条多选科学问题,RQA子集则包含5.2万条化学问答。所有数据均以JSONL格式存储,结构清晰且附带元数据。其内容紧密围绕科学推理设计,特别是模仿了GPQA的题目风格与知识深度,旨在专门增强大语言模型在复杂科学问题上的分析与解答能力。
使用方法
该数据集主要面向致力于提升大语言模型科学推理能力的研究者与工程师。在实际应用中,用户可以直接加载JSONL文件,将问题与推理轨迹用于监督式训练或数据增强。数据集适用于构建科学领域的模型微调流程,能够有效融入现有的训练管道,以强化模型在STEM及化学等专业领域的逻辑推理与问题解决性能。使用前需遵循CC BY 4.0许可协议,并充分考虑其合成数据特性在具体应用场景中的适用性。
背景与挑战
背景概述
随着人工智能在科学计算与推理领域的深入应用,高质量、专业化的科学数据集成为推动大语言模型(LLM)能力边界的关键。Nemotron-Science-v1由NVIDIA公司于2025年12月3日发布,旨在通过合成数据增强模型在科学领域的推理能力。该数据集包含多项选择题(MCQA)与化学问答题(RQA)两个子集,总计超过22万条样本,专门设计用于模拟GPQA风格的科学问题,并辅以由GPT-OSS-120B生成的推理轨迹。其核心研究问题聚焦于提升LLM在复杂科学场景下的逻辑推理与问题解决性能,为科学人工智能的发展提供了重要的数据支撑。
当前挑战
在科学人工智能领域,构建能够处理深层逻辑与专业知识的模型面临显著挑战。Nemotron-Science-v1致力于解决科学推理任务中模型泛化能力不足与领域知识整合困难的问题,尤其是针对化学等专业学科的复杂问答题型。数据集构建过程中的挑战主要源于合成数据的质量把控:如何确保由大语言模型生成的科学问题在准确性、难度分布与逻辑连贯性上接近真实专家水平,同时避免引入模型固有的偏见或错误,是数据合成技术需要克服的关键障碍。
常用场景
经典使用场景
在科学推理领域,Nemotron-Science-v1数据集为大型语言模型的训练与评估提供了关键资源。其MCQA子集通过模拟GPQA风格的科学问题与推理轨迹,专门用于增强模型在STEM学科中的多步逻辑推理能力;而RQA子集则聚焦于合成化学问题,旨在提升模型在特定科学领域的深度理解与解答技巧。这一数据集常被应用于监督式训练流程,作为数据增强工具,以系统化地优化模型在复杂科学问题上的表现。
实际应用
在实际应用中,Nemotron-Science-v1被集成于科学教育辅助、研究自动化工具及专业领域咨询系统的开发流程中。例如,在智能教育平台中,该数据集可用于训练能够解答高阶科学问题并提供分步解释的对话代理;在工业研发环境中,它支持构建化学领域的问题求解助手,加速实验设计与文献分析。这些应用显著提升了科学工作者的效率,并降低了专业知识获取的门槛。
衍生相关工作
围绕Nemotron-Science-v1,已衍生出多项经典研究工作,主要集中在科学大语言模型的微调与评估框架上。例如,研究者利用其MCQA子集开发了针对STEM学科的推理增强训练策略,提升了模型在物理、生物学等领域的零样本表现;同时,基于RQA子集的化学专业问答模型也在学术界与工业界得到验证,推动了领域特定语言模型在药物发现与材料科学中的实际部署。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作