Nemotron-RL-knowledge-mcqa
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-RL-knowledge-mcqa
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-RL-knowledge-mcqa是一个多领域的合成多项选择题问答(MCQA)数据集,包含基于知识的题目。该数据集通过结合和优化了OpenScienceReasoning-2数据集的子集以及其他非结构化来源如书籍和文章。数据集使用Qwen3-32B、Qwen3-235B-A22B-Instruct-2507和DeepSeek-R1-0528创建而成。每个样本包含一个问题、多个答案选项和一个正确答案。数据集覆盖了广泛的领域,包括物理、生物、化学、数学、计算机科学、工程、人文、法律等。该数据集作为NVIDIA NeMo Gym的一部分发布,用于构建强化学习环境来训练大型语言模型。
提供机构:
NVIDIA
创建时间:
2025-11-14
原始信息汇总
Nemotron-RL-knowledge-mcqa 数据集概述
数据集基本信息
- 数据集名称:Nemotron-RL-knowledge-mcqa
- 所有者:NVIDIA Corporation
- 创建日期:2025年10月20日
- 许可证:CC BY 4.0
- 商业使用:允许
数据集描述
Nemotron-RL-knowledge-mcqa是一个多领域合成的多项选择题问答数据集,包含基于知识的问题。该数据集结合并优化了OpenScienceReasoning-2数据集的子集以及其他非结构化来源(如书籍和文章)。数据集使用Qwen3-32B、Qwen3-235B-A22B-Instruct-2507和DeepSeek-R1-0528模型创建。
数据特征
数据结构
- responses_create_params:结构化字段,包含输入内容列表
- expected_answer:字符串类型,预期答案
- uuid:字符串类型,唯一标识符
- options:选项列表,包含A到Z共26个选项字段
- reward_profiles:奖励配置文件列表
- template_metadata:模板元数据结构
数据规模
- 训练集:617,020个样本,1,809,438,313字节
- 验证集:68,553个样本,200,924,087字节
- 总样本数:685,573个(问题,答案)元组
- 下载大小:757,218,926字节
- 数据集大小:2,010,362,400字节
领域覆盖
数据集涵盖广泛的领域,包括:
- 物理学、生物学、化学、数学
- 计算机科学、工程学
- 人文学科、法律
- 其他领域
数据收集与标注
- 数据收集方法:合成
- 标注方法:合成
数据格式
- 格式:纯文本
- 兼容性:与NeMo-Gym兼容
预期用途
用于通过NeMo-Gym对大型语言模型进行后训练。
参考资源
- NeMo-Gym:https://github.com/NVIDIA-NeMo/Gym
- NVIDIA NeMo框架:https://github.com/NVIDIA-NeMo/
- Nemo Gym Collection:https://huggingface.co/collections/nvidia/nemo-gym
搜集汇总
数据集介绍

构建方式
在知识密集型多选问答数据集构建领域,Nemotron-RL-knowledge-mcqa通过融合结构化与非结构化知识源实现了创新突破。该数据集以OpenScienceReasoning-2子集为核心基础,结合书籍与学术文献等非结构化文本,采用Qwen3-32B、Qwen3-235B-A22B-Instruct-2507及DeepSeek-R1-0528三大先进语言模型协同生成机制。通过精心设计的合成流程,每个数据样本均包含具有明确选项的多选问题与标准答案,覆盖物理、生物、化学至人文法律等跨学科知识领域,最终形成包含68.5万组问答对的大规模语料库。
特点
该数据集在知识表征维度展现出显著特性,其多选问题架构支持从A至Z的26个选项扩展能力,突破了传统四选一模式的限制。每个数据单元采用多层结构化设计,既包含问题上下文与角色定义的对话参数,又整合了奖励模型性能指标与模板元数据。特别值得关注的是其验证集具备独立划分,且所有样本均配备唯一标识符,为强化学习训练提供了精准的反馈机制。这种设计使得数据集既能满足基础问答任务,又能适配复杂的奖励建模需求。
使用方法
作为NeMo Gym强化学习框架的核心组件,该数据集主要服务于大语言模型的后期训练阶段。研究人员可通过加载标准格式的文本数据,构建基于验证奖励的强化学习环境。每个训练样本包含完整的对话参数与预期答案,配合模板元数据中定义的输出正则表达式,可精准控制模型生成行为。实践表明,该数据集适用于多轮对话策略优化、奖励模型训练及知识推理能力评估等场景,其CC BY 4.0许可协议确保了商业应用的合规性。
背景与挑战
背景概述
随着人工智能在知识推理领域的发展,多领域选择题数据集成为评估模型综合能力的重要工具。Nemotron-RL-knowledge-mcqa由NVIDIA公司于2025年10月发布,基于OpenScienceReasoning-2数据集及非结构化文本资源,通过Qwen3与DeepSeek-R1等大语言模型生成合成数据。该数据集涵盖物理、生物、化学至人文法律等跨学科知识,旨在为强化学习训练环境提供标准化基准,推动可验证奖励机制下语言模型的精准优化。
当前挑战
构建跨学科知识选择题库需应对领域泛化与语义一致性难题,既要确保数理化等理科问题的逻辑严谨性,又需维护人文类题目语境深度。合成数据生成过程中,大语言模型可能产生事实性偏差或选项歧义,需通过多轮验证保证答案唯一性。在强化学习框架下,模型需平衡知识广度与推理深度,避免因领域差异导致奖励信号失真。
常用场景
经典使用场景
在人工智能领域,Nemotron-RL-knowledge-mcqa数据集作为强化学习环境中的核心资源,广泛应用于训练大型语言模型的多选题解答能力。其涵盖物理、生物、化学、数学等跨学科知识,通过模拟真实问答场景,帮助模型在复杂决策过程中优化策略。该数据集通过结构化的问题与选项设计,为模型提供了系统性的知识评估框架,显著提升了推理准确性和泛化性能。
解决学术问题
该数据集有效解决了语言模型在知识密集型任务中的泛化能力不足问题,通过合成多领域多选题库,填补了传统数据集在跨学科推理评估上的空白。其标准化标注体系为研究社区提供了可复现的基准,推动了基于验证奖励的强化学习方法发展。这种设计不仅加速了模型对齐技术的迭代,还为评估模型知识边界提供了量化工具,对自然语言处理领域的理论创新具有深远影响。
衍生相关工作
基于该数据集衍生的经典研究包括NeMo框架中的策略优化算法改进,以及多模态推理模型的联合训练范式。开源社区据此开发了系列知识增强型语言模型,如融合强化学习与课程学习的混合训练架构。这些工作不仅扩展了数据集的学术价值,更催生了新一代可验证人工智能系统的技术路线图。
以上内容由遇见数据集搜集并总结生成



