five

Dogacel/nemotron-post-training-v2-gpt-oss-120b-regen

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Dogacel/nemotron-post-training-v2-gpt-oss-120b-regen
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是使用gpt-oss-120b模型对Nemotron-Post-Training-Dataset-v2数据集的英文样本进行重新生成的响应。数据集仅包含英文样本,其中85%的聊天提示启用了推理功能,其他类别则禁用了推理功能。数据集包含多个类别,如数学(239467个样本)、代码(175000个样本)、STEM(355000个样本)和聊天(627720个样本)。数据集创建过程中使用了sglang和SpecForge工具,并在8xH200集群上完成。

Regenerated responses from the Nemotron-Post-Training-Dataset-v2 dataset using the gpt-oss-120b model. The dataset consists only of English samples from the Nemotron Post Training Dataset, with 85% of chat prompts having reasoning enabled and other categories having reasoning disabled. The dataset includes multiple categories such as math (239467 samples), code (175000 samples), STEM (355000 samples), and chat (627720 samples). The dataset was created using sglang and SpecForge tools on an 8xH200 cluster.
提供机构:
Dogacel
搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-Post-Training-v2-gpt-oss-120b-regen数据集是基于NVIDIA的Nemotron-Post-Training-Dataset-v2,通过gpt-oss-120b模型重新生成响应而构建的。构建过程中,采用sglang框架(版本0.5.10.post1)在8×H200集群上耗时16小时完成。采样使用SpecForge格式,通过regenerate_train_data.py脚本,设置并发数为1024、最大token数为4096、温度系数为1.0、top-p为0.95、top-k为20、重复惩罚为1.5,从本地服务器(localhost:30000)获取生成的响应,并将结果输出为JSONL格式文件。数据集仅保留原始数据集中的英文样本,并依据不同类别(数学、代码、科学、对话)分配响应生成策略,其中85%的对话提示启用了推理功能。
特点
该数据集具有鲜明的多层次分类特征,涵盖数学(239,467条)、代码(175,000条)、科学(355,000条)和对话(627,720条)四大领域,总样本量超过139万条。所有响应均由gpt-oss-120b模型在统一的随机采样参数(温度1.0、top-p 0.95、top-k 20、重复惩罚1.5)下重新生成,最大生成长度可达8192 token,确保了输出多样性和内容质量。值得关注的是,数据集在对话类别中创新性地引入了推理开关机制,使得大部分样本具备链式推理能力,而数学、代码和科学类别则保持无推理模式,这种差异化设计为后续模型训练提供了精细化的调控维度。
使用方法
该数据集适用于文本生成任务的监督式微调(SFT),特别是用于改进大语言模型的推理和指令跟随能力。用户可直接加载JSONL格式的样本,每个样本包含原始提示和重新生成的响应字段,无需额外预处理。在训练过程中,可根据任务需求灵活选择不同类别的子集,例如使用数学和科学样本强化模型的逻辑推理,或利用对话样本提升多轮交互的自然度。由于数据集中85%的对话提示具备推理链,研究人员可结合推理增强技术(如思维链监督)进行针对性训练。建议在训练时参考原始数据集的使用协议(CC-BY-SA 4.0),并注意不同来源数据(如StackOverflow、Wildchat)的附属许可条款。
背景与挑战
背景概述
该数据集由研究者Doğaç Eldenk主导创建,并依托Fal.ai提供的计算资源,于2024年基于NVIDIA发布的Nemotron-Post-Training-Dataset-v2数据集,利用OpenAI的gpt-oss-120b模型对英文子集进行重新生成。其核心研究问题聚焦于提升大语言模型在数学、代码、STEM及多轮对话等复杂任务上的后训练效果,通过再生响应增强数据质量与多样性,以推动文本生成领域模型性能的进一步提升。该数据集包含了超过139万条样本,覆盖数学、代码、STEM及对话等类别,为后训练微调提供了丰富的资源,对优化大语言模型的推理能力与生成质量具有重要影响力。
当前挑战
该数据集解决的核心领域挑战在于提升大语言模型后训练阶段的数据质量与多样性,以应对传统训练数据在长文本推理、结构化代码生成及多模态思维链任务中的局限性。在构建过程中,主要挑战包括:需要在大规模集群上高效调度1024并发请求进行数据再生,并需精确控制采样参数(如温度、Top-k、重复惩罚)以平衡生成内容的创造性与稳定性;同时,需处理来自不同源数据(如CC-BY-4.0、ODC-BY等)的许可兼容性问题,确保数据合规集成。此外,数据再生依赖的推理框架(SpecForge)及模型(gpt-oss-120b)对计算资源与工程部署提出了极高要求,需在16小时内完成8xH200集群上的稳定运行,并解决长上下文(131072 tokens)下的显存优化与调度负载均衡难题。
常用场景
经典使用场景
Nemotron-Post-Training-v2-gpt-oss-120b-regen 数据集的核心应用在于对大语言模型进行监督微调(SFT)与后训练优化。该数据集通过对 NVIDIA Nemotron-Post-Training-Dataset-v2 中的英文样本,利用 gpt-oss-120b 模型以特定温度、top-k 等参数重新生成回复,产出超过 139 万条高质量对话数据,涵盖数学、代码、STEM 及通用聊天四大类别。研究人员通常将其作为指令微调的标准物料,以提升模型在多领域任务上的推理能力与指令遵循水平。
衍生相关工作
该数据集衍生出多项具有影响力的工作,包括对 SpecForge 框架的验证与改进,该框架通过高效推理引擎实现了大规模数据重生成。此外,配套的 sglang 部署方案与重生成流程被后续研究采纳为标准基线,启发了一系列关注数据质量筛选、多轮推理增强及领域自适应的论文。数据集自身也常作为对比基准,用于评估不同模型在指令微调后的泛化能力差异。
数据集最近研究
最新研究方向
基于大语言模型推理能力的合成数据重生成与对齐优化。该数据集利用gpt-oss-120b模型对NVIDIA的Nemotron后训练数据集v2中超过百万条英文样本进行响应重生成,重点强化数学、代码、科学(STEM)及对话场景中的推理能力,其中85%的聊天提示启用了推理模式。这一工作呼应了当前大模型后训练阶段对高质量、多样化推理数据的需求浪潮,通过调控温度、top-k等生成参数在8×H200集群上高效产出,为提升模型在复杂推理任务中的表现提供了可复用的数据基础,推动了开源社区在合成数据生成与对齐研究方面的前沿探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作