five

Nemotron-Cascade-2-SFT-Data

收藏
Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Cascade-2-SFT-Data
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-Cascade-2-SFT-Data 是一个用于训练 Nemotron-Cascade-2 模型的监督微调(SFT)数据集。该数据集包含多个领域的样本,包括数学、科学、通用聊天、指令跟随、安全性、对话代理、软件工程代理和终端代理。数据来源于多个公开数据集,并通过不同的模型(如 DeepSeek-V3.2、GPT-OSS-120B 等)生成响应。数据集按领域划分,具体样本数量如下:数学 5,226,364 条,科学 2,717,163 条,通用聊天 13,972,873 条,指令跟随 820,263 条,安全性 3,570 条,对话代理 822,213 条,软件工程代理 439,610 条,终端代理 822,213 条。训练时,所有 SFT 样本被打包成长度不超过 256K 标记的序列,并在单个阶段进行训练。数据集发布于 2026 年 3 月 19 日,使用 NVIDIA Open Model License 许可。
提供机构:
NVIDIA
创建时间:
2026-03-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作