Nemotron-Cascade-2-SFT-Data-Small
收藏Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/MaziyarPanahi/Nemotron-Cascade-2-SFT-Data-Small
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-Cascade-2-SFT-Data-Small 是 nvidia/Nemotron-Cascade-2-SFT-Data 数据集的 20% 随机样本,合并为一个包含 4,898,804 条数据的训练集。该数据集专为监督微调(SFT)任务设计,涵盖数学、科学、聊天、安全、指令遵循、对话代理、软件工程和终端代理等多个领域。数据集结构包括域(domain)、数据来源(source)、消息列表(messages)和生成模型(generator)等字段。消息列表包含角色(role)和内容(content)两个子字段。数据集以 Parquet 格式存储,采用 zstd 压缩,分为 10 个分片,总计约 35 GB。使用示例展示了如何通过 Hugging Face 的 datasets 库加载数据。
创建时间:
2026-03-21



