Nemotron-Cascade-2-SFT-Data
收藏Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Cascade-2-SFT-Data
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-Cascade-2-SFT-Data 是一个用于训练 Nemotron-Cascade-2 模型的监督微调(SFT)数据集。该数据集包含多个领域的样本,包括数学、科学、通用聊天、指令跟随、安全性、对话代理、软件工程代理和终端代理。数据来源于多个公开数据集,并通过不同的模型(如 DeepSeek-V3.2、GPT-OSS-120B 等)生成响应。数据集按领域划分,具体样本数量如下:数学 5,226,364 条,科学 2,717,163 条,通用聊天 13,972,873 条,指令跟随 820,263 条,安全性 3,570 条,对话代理 822,213 条,软件工程代理 439,610 条,终端代理 822,213 条。训练时,所有 SFT 样本被打包成长度不超过 256K 标记的序列,并在单个阶段进行训练。数据集发布于 2026 年 3 月 19 日,使用 NVIDIA Open Model License 许可。
提供机构:
NVIDIA
创建时间:
2026-03-20



