Nemotron-RL-Math-v2-prompt-only

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/jamesdborin/Nemotron-RL-Math-v2-prompt-only

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-RL-Math-v2-prompt-only 是一个专门从 nvidia/Nemotron-RL-Math-v2 数据集中提取出的仅包含提示（prompt）部分的数据集，属于 Nemotron 后训练（post-training）工作流程的产物。该数据集的核心文件是 prompts.csv，其中每条记录对应源数据集中的一行，并包含了提取出的 prompt、独立的 system_prompt 字段，以及当源数据行定义了可用工具时，以 JSON 格式编码在 CSV 单元格内的结构化 tools 信息。数据集还提供了两个辅助文件：summary.md 记录了源数据行数、成功提取的行数、数量差异以及提取失败的提示数量；null_or_empty_rows.md 则列出了那些未能成功提取出有效提示（结果为 null 或空）的源数据行索引。根据统计，该数据集共包含 3748 条成功提取的提示记录，同时有 3984 条提示提取失败，导致总行数比源数据减少了 3984 行。该数据集主要用于与提示工程、指令微调或基于提示的模型训练相关的任务和应用场景。

Nemotron-RL-Math-v2-prompt-only is a dataset specifically extracted from the nvidia/Nemotron-RL-Math-v2 dataset, containing only the prompt portions, and is a product of the Nemotron post-training workflow. The core file of this dataset is prompts.csv, where each record corresponds to a row in the source dataset and includes the extracted prompt, a separate system_prompt field, and structured tools information encoded in JSON format within CSV cells when the source data row defines available tools. The dataset also provides two auxiliary files: summary.md records the number of source data rows, successfully extracted rows, quantity differences, and the number of failed prompt extractions; null_or_empty_rows.md lists the indices of source data rows that failed to extract valid prompts (resulting in null or empty). According to statistics, the dataset contains 3748 successfully extracted prompt records, while 3984 prompt extractions failed, resulting in a total row count reduction of 3984 rows compared to the source data. This dataset is primarily used for tasks and applications related to prompt engineering, instruction fine-tuning, or prompt-based model training.

创建时间：

2026-06-29

原始信息汇总

数据集概述

数据集名称：Nemotron-RL-Math-v2-prompt-only

数据集来源：从 nvidia/Nemotron-RL-Math-v2 数据集中提取的仅含提示（prompt）的数据。

数据集内容

该数据集包含以下文件：

prompts.csv：每一条记录对应源数据集中的一行，包含以下字段：
- prompt：提示文本
- system_prompt：分离的系统提示
- tools：当源数据行定义了可用工具时，以结构化的形式呈现（嵌套值在CSV单元格内以JSON编码）
summary.md：包含源数据行数、提取后行数、数量变化以及失败的提示数量
null_or_empty_rows.md：记录提取时产生空或空提示的行索引

数据统计

提取后行数：3748
失败提示行数：3984
行数减少量：-3984

其他信息

标签：nemotron、prompt-only、post-training
配置名称：default（数据文件路径为 prompts.csv，仅包含训练集）
上传者：jamesdborin
来源：Nemotron Post-Training v3 提示提取器工作流

搜集汇总

数据集介绍

构建方式

Nemotron-RL-Math-v2-prompt-only数据集源自nvidia/Nemotron-RL-Math-v2，通过后训练prompt提取流程精炼而成。该流程从原始数据集的每一行中抽取提示信息，保留核心的prompt字段，并分离出独立的system_prompt，同时将嵌套的工具定义以JSON格式内嵌于CSV单元格中。最终生成的prompts.csv文件仅包含提取成功的记录，共计3748条，原始数据中3984条因prompt提取为空或无效而被过滤，体现了对数据质量的严格把控。

特点

该数据集以“纯提示”为特色，专注于提供结构化的数学推理输入，适用于强化学习或后训练场景。每条记录包含清晰的prompt、独立的system_prompt以及可选的tools信息，这种分离设计便于灵活调用。数据简洁精炼，无冗余样本，有效减少了噪音干扰。同时，配套的summary.md和null_or_empty_rows.md文档记录了提取统计与失败案例，增强了透明性与可复现性。

使用方法

用户可直接加载prompts.csv文件，利用其中的prompt字段作为模型输入，system_prompt用于设定推理环境。在强化学习任务中，可结合tools字段解析可用工具，从而构建交互式训练流程。建议先查阅summary.md了解数据规模与过滤情况，再根据null_or_empty_rows.md排除问题行。数据以标准CSV格式存储，易于集成到主流深度学习框架中，适用于数学推理能力微调与评估。

背景与挑战

背景概述

Nemotron-RL-Math-v2-prompt-only数据集由NVIDIA研究团队于后训练阶段构建，旨在从大规模数学推理数据集Nemotron-RL-Math-v2中提取高质量的提示（prompt）信息。该数据集聚焦于强化学习环境下的数学推理问题，专为提升大语言模型在复杂数学任务上的对齐能力而设计。通过保留原始数据中的系统提示与结构化工具，该数据集为模型的后训练微调提供了更精准的输入形式，对推动数学推理领域的强化学习研究具有重要参考价值。

当前挑战

该数据集面临的核心挑战在于，原始数据集中近4000条样本因提示提取失败而被排除，表明从复杂数学推理记录中自动提取有效提示仍存在显著技术障碍。具体而言，非标准化的工具定义、嵌套的JSON结构以及系统提示与用户提示的模糊边界导致提取过程易出错。此外，当前仅包含3748条成功提取样本，规模有限可能影响模型泛化能力，如何在保证提示精确性的同时提升提取成功率，是亟需解决的领域问题。

常用场景

经典使用场景

Nemotron-RL-Math-v2-prompt-only数据集专为数学领域的大语言模型强化学习后训练而设计。该数据集包含了3748条精心提取的数学问题提示，每条记录均包含独立的提示文本、系统提示以及可选的结构化工具定义。研究者可将这些提示作为初始输入，用于训练模型在数学推理任务中通过试错与奖励反馈不断优化策略，从而提升数学问题求解的准确性与鲁棒性。这一经典应用场景聚焦于强化学习框架下的模型微调与策略学习。

实际应用

在实际应用中，该数据集可被用于训练能够自主解决数学问题的智能系统，例如教育辅导机器人、自动化数学题解算器和竞赛数学辅助工具。这些系统可以基于强化学习算法，利用数据集中的提示逐步优化解题策略，从而为学习者提供逐步指导或即时答案。此外，该数据集还可服务于企业级AI客服中涉及数学计算的场景，如财务分析、工程计算和技术支持，通过模型持续学习提升数学问题处理的准确率。

衍生相关工作

该数据集衍生了多个经典研究工作，包括基于Nemotron框架的数学推理强化学习算法开发、提示提取与清洗方法的优化，以及后训练流程中系统提示与工具结构的设计。其上游数据源nvidia/Nemotron-RL-Math-v2已被广泛用于数学领域的模型后训练研究，而本数据集作为其精简版提示集合，进一步催生了提示效率分析、失败提示恢复策略以及跨领域提示泛化能力评估等后续工作。这些研究共同丰富了大语言模型在数学任务上的强化学习实践。

以上内容由遇见数据集搜集并总结生成