five

Dogacel/nemotron-post-training-v2-qwen-3.5-9b-regen

收藏
Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Dogacel/nemotron-post-training-v2-qwen-3.5-9b-regen
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用Qwen3.5 9B模型重新生成nvidia/Nemotron-Post-Training-Dataset-v2数据集的响应而创建的。数据集仅包含Nemotron Post Training Dataset中的英文样本,其中85%的聊天提示启用了推理功能,其他类别则禁用。数据集包括数学(239467个样本)、代码(175000个样本)、STEM(355000个样本)和聊天(627720个样本)等多个类别,总样本量排除了超过16K令牌最大预填充长度的1386个样本。数据集创建过程中使用了sglang和SpecForge工具,并在8xH200集群上耗时10小时完成。

Regenerated responses from nvidia/Nemotron-Post-Training-Dataset-v2 dataset using Qwen3.5 9B model. The dataset consists only the english samples from the Nemotron Post Training Dataset. 85% of the chat prompts have reasoning enabled, every other category has reasoning disabled. The dataset includes multiple categories such as math (239467 samples), code (175000 samples), stem (355000 samples), and chat (627720 samples). Total dataset excludes 1386 samples which exceeded the maximum pre-fill length of 16K tokens. The dataset was created using sglang and SpecForge tools on an 8xH200 cluster in 10 hours.
提供机构:
Dogacel
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作