five

Nemotron-Math-v2-prompt-only

收藏
Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/jamesdborin/Nemotron-Math-v2-prompt-only
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-Math-v2-prompt-only 是一个从 nvidia/Nemotron-Math-v2 数据集中提取出的仅包含提示词(prompt-only)的数据集。其核心文件 prompts.csv 包含每条提取记录,涵盖提取的提示词(prompt)、可选的独立系统提示词(system_prompt),以及当源数据定义了可用工具时以 JSON 格式编码的结构化工具(tools)信息。数据集还附带 summary.md 文件,提供源数据行数、提取行数、数量差异和失败提示词数量的统计摘要,以及 null_or_empty_rows.md 文件,记录生成了空或 null 提示词的行索引。根据摘要,该数据集共包含 7,085,839 条有效提取记录,无失败记录,行数差异为零。该数据集适用于需要大量高质量提示词进行模型训练、评估或分析的任务,特别是与工具使用或系统指令结合的场景。

Nemotron-Math-v2-prompt-only is a prompt-only dataset extracted from the nvidia/Nemotron-Math-v2 dataset. Its core file is prompts.csv, where each record corresponds to a row from the source data, containing the extracted prompt, an optional independent system_prompt, and structured tools information encoded in JSON format when the source data defines available tools. The dataset also includes summary.md (providing statistical summaries of source data row count, extracted row count, quantity differences, and count of failed prompts) and null_or_empty_rows.md (recording row indices that generated empty or null prompts). According to the summary, the dataset contains a total of 7,085,839 valid extracted records, with no failed records and zero row count difference. This dataset is suitable for tasks requiring large amounts of high-quality prompts for model training, evaluation, or analysis, particularly in scenarios involving tool usage or system instructions.
创建时间:
2026-06-26
原始信息汇总

数据集概述

  • 名称: Nemotron-Math-v2-prompt-only
  • 来源数据集: nvidia/Nemotron-Math-v2
  • 任务类型: 后训练阶段(post-training)的提示提取
  • 标签: nemotron, prompt-only, post-training

文件构成

数据集包含三个文件:

文件名 说明
prompts.csv 每条记录对应源数据集的一行,包含prompt、分离的system_prompt,以及当源行定义了可用工具时的结构化tools字段(嵌套值以JSON格式编码在CSV单元格内)
summary.md 源行计数、提取行计数、计数差异以及失败的提示计数
null_or_empty_rows.md 提示提取产生空或null提示的行索引

数据规模

  • 提取行数: 7,085,839
  • 失败提示行数: 0
  • 行数差异: 0

其他信息

  • 上传者: jamesdborin
  • 来源: Nemotron Post-Training v3 提示提取器工作流程
搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-Math-v2-prompt-only数据集源自nvidia/Nemotron-Math-v2,通过一个专门的后训练提示提取流程构建而成。具体而言,该数据集以prompts.csv文件形式呈现,其中每条记录对应源数据中的一行,提取了包含提示(prompt)、分离的系统提示(system_prompt)以及在源行定义可用工具时对应的结构化工具(tools)信息。嵌套值在CSV单元格中采用JSON编码,确保了复杂数据的完整性与可解析性。此外,数据集还提供了summary.md和null_or_empty_rows.md两个辅助文件,分别记录了行计数统计及提取失败的行索引,保障了数据构建过程的透明与可追溯。
特点
该数据集的核心特点在于其专注于提示部分的纯净提取,剔除了原始数据集中的其他冗余信息,为大型语言模型的后训练与微调提供了高度聚焦的语料。数据规模庞大,包含7,085,839条有效提取行,且提示提取失败率为零,体现了构建流程的高效与可靠性。结构化工具字段的保留使得数据集不仅支持纯文本提示任务,还能服务于工具增强型对话场景。通过JSON编码嵌套值,数据在保持紧凑性的同时,也为下游任务提供了灵活的解耦能力。
使用方法
使用者可通过直接加载prompts.csv文件来获取数据集内容,利用'prompt'、'system_prompt'和'tools'等字段进行模型训练与评估。推荐将数据集用于大型语言模型的后训练阶段,特别是数学推理或工具交互相关任务的微调。由于嵌套值以JSON格式存储,在读取时需使用支持JSON解析的库(如pandas的json_normalize或Python的json模块)进行解构。数据集已上传至HuggingFace,可通过指定仓库名jamesdborin/Nemotron-Math-v2-prompt-only并选用默认配置直接下载使用。
背景与挑战
背景概述
Nemotron-Math-v2-prompt-only数据集由NVIDIA研究团队于2024年创建,旨在为数学推理任务提供高质量的提示数据。该数据集源自完整的Nemotron-Math-v2数据集,通过后训练提示提取流程精心筛选,聚焦于数学领域中的复杂推理问题。其核心研究问题在于如何通过优化提示结构提升大语言模型在数学推理任务上的性能。作为后训练阶段的关键资源,该数据集在推动数学推理方向的研究中具有重要影响力,为模型微调与评估提供了标准化的提示数据基础。
当前挑战
该数据集所解决的领域挑战在于数学推理任务中提示设计的复杂性,即如何构造高效的系统提示和工具调用结构以引导模型准确求解。构建过程中面临的挑战包括:从原始数据集中精准提取结构化提示,确保系统提示与用户提示的分离完整性;处理嵌套JSON值的编码问题,保持CSV格式下数据的一致性;以及维护大规模数据(超过700万记录)的提取效率与零缺失率。这些挑战要求严格的提示提取工作流与数据质量监控机制。
常用场景
经典使用场景
Nemotron-Math-v2-prompt-only数据集专为数学推理领域的大语言模型后训练阶段而设计,其经典使用场景聚焦于指令微调与对齐优化。该数据集从原始多轮对话中精准提取独立提示,保留了系统提示与结构化工具定义,为研究者提供纯净的数学问题输入池。通过在此数据集上进行监督式微调,模型能够深入理解数学问题的表述逻辑与求解意图,从而显著提升在竞赛数学、定理证明等复杂推理任务中的表现。
衍生相关工作
基于该数据集,研究人员已衍生出多项关键工作,包括探索提示增强对数学推理性能的影响、对比不同后训练策略下的模型泛化能力,以及结合工具调用提升多步推理的可靠性。此外,该数据集的提取框架也为其他领域的高质量提示集构建提供了方法论参考,催生了如基于自洽性的推理增强、对抗性提示训练等一系列创新研究,进一步夯实了大模型在数学领域的应用基础。
数据集最近研究
最新研究方向
基于Nemotron-Math-v2-prompt-only数据集的研究聚焦于后训练阶段提示词的精细提取与结构化组织,这一前沿方向与当前大语言模型领域对高质量、可复现的数学推理能力提升的迫切需求紧密相连。该数据集通过系统化的数据清洗与重构,为模型的后训练优化提供了标准化输入,尤其在复杂数学问题求解、多步推理链构建及工具调用集成等热点事件中扮演关键角色。其影响在于推动科学计算与人工智能的深度融合,为从基础教育到前沿科研的数学应用场景提供可迁移的认知基础,进而加速智能体在科学发现、工程优化等领域的突破性进展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务