Llama-Nemotron-Post-Training-Dataset

Name: Llama-Nemotron-Post-Training-Dataset
Creator: 英伟达（NVIDIA）
Published: 2025-05-02 09:35:35
License: 暂无描述

arXiv2025-05-02 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00949v1

下载链接

链接失效反馈

官方服务：

资源简介：

Llama-Nemotron-Post-Training-Dataset是一个精心策划的数据集，用于Llama-Nemotron系列模型在监督学习和强化学习阶段的训练。该数据集旨在针对数学推理、编码、科学和指令遵循等关键能力，由各种开源模型生成的合成响应组成。数据集中的提示和响应经过过滤，以确保其质量、正确性和复杂性，为各种任务提供强大的训练信号。

Llama-Nemotron-Post-Training-Dataset is a carefully curated dataset designed for the supervised learning and reinforcement learning stages of Llama-Nemotron series models. This dataset targets key capabilities including mathematical reasoning, coding, scientific tasks, and instruction following, and consists of synthetic responses generated by various open-source models. The prompts and responses in the dataset have been filtered to ensure their quality, correctness, and complexity, providing robust training signals for diverse tasks.

提供机构：

英伟达（NVIDIA）

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

Llama-Nemotron-Post-Training-Dataset的构建过程体现了高度系统化的数据工程方法。该数据集通过多阶段流程生成，首先从AoPS论坛、竞赛编程平台及科学问答社区收集原始问题，随后采用Qwen2.5-32B-Instruct和DeepSeek-R1等先进模型进行问题分类、答案提取及基准去污染处理。在数学领域，通过16次DeepSeek-R1和64次Qwen2.5-Math-7B-Instruct的并行求解生成多样化解题轨迹；代码领域则整合TACO、APPS等28,904道编程题，并采用语义相似度检测确保数据独特性。科学领域结合StackOverflow真实问答与Nemotron-4-340B生成的合成多选题，最终通过多数投票机制验证答案正确性。所有数据均经过格式标准化、复杂度筛选和跨基准去重处理，形成覆盖数学（66.8%）、代码（30.6%）、科学（2.1%）等多领域的3300万条样本。

使用方法

该数据集专为分阶段模型训练优化设计。在监督微调阶段，建议采用余弦学习率衰减（初始1e-5至1e-6）和32k序列打包技术处理长推理轨迹，数学与代码数据应以4:3比例混合以平衡能力发展。强化学习阶段需采用课程学习策略，基于GRPO算法按题目通过率动态调整批次难度（建议初始通过率0.75，逐步降至0.3）。对于8B参数以下模型，推荐三阶段训练法：先专注数学/代码推理数据（1e-4学习率），再引入非推理配对数据，最后融合指令跟随样本。评估时需注意基准特异性——AIME25建议16次采样取平均，LiveCodeBench需严格隔离2408-2502时间段的测试集。对于工业部署，可通过FP8量化实现1.8倍推理加速，并利用vLLM的cudagraph特性优化内存管理。

背景与挑战

背景概述

Llama-Nemotron-Post-Training-Dataset是由NVIDIA于2025年发布的一个开源数据集，旨在支持高效推理模型的训练与优化。该数据集是Llama-Nemotron系列模型（包括Nano、Super和Ultra三个规模）后训练阶段的核心组成部分，专注于提升模型在数学推理、编程、科学和指令遵循等关键领域的能力。NVIDIA通过这一数据集的开源，推动了开放研究社区在推理模型领域的发展，并为企业和研究机构提供了高质量的模型训练资源。Llama-Nemotron系列模型在推理效率和性能上表现出色，成为当时开源模型中的领先者。

当前挑战

Llama-Nemotron-Post-Training-Dataset面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决复杂推理任务（如数学问题求解、科学问答和编程任务）中的模型性能瓶颈，这些任务通常需要多步推理和高度准确的答案生成。2) 构建过程的挑战：数据集的构建涉及从多个开源论坛和竞赛平台提取问题，并通过多轮生成和过滤流程确保数据的质量和多样性。此外，数据集的去污（避免与现有基准测试重叠）和格式统一化（如标签化推理步骤）也是构建过程中的主要技术难点。

常用场景

经典使用场景

Llama-Nemotron-Post-Training-Dataset在自然语言处理领域中被广泛用于训练和优化具有高效推理能力的大型语言模型。该数据集特别适用于监督微调（SFT）和强化学习（RL）阶段，帮助模型在数学推理、代码生成和科学问答等复杂任务中表现出色。通过动态切换推理模式，该数据集支持模型在不同任务需求下灵活调整推理深度，从而在保持高效推理的同时提升任务性能。

解决学术问题

Llama-Nemotron-Post-Training-Dataset解决了大型语言模型在推理任务中面临的效率与性能平衡问题。通过提供高质量的合成数据和多样化的任务场景，该数据集帮助模型在数学竞赛（如AIME）、科学问答（如GPQA）和代码生成（如LiveCodeBench）等任务中实现接近或超越当前最优模型的性能。此外，其动态推理切换功能为研究模型在不同推理模式下的行为提供了新的实验平台。

实际应用

在实际应用中，Llama-Nemotron-Post-Training-Dataset被用于开发企业级AI助手和自动化工具。例如，在代码生成平台中，基于该数据集训练的模型能够高效生成高质量代码；在教育领域，模型可用于解答复杂数学和科学问题。其优化的推理效率还使其适用于实时交互场景，如客服机器人和多轮对话系统。

数据集最近研究