five

Nemotron-Cascade-2-SFT-Data-Small

收藏
Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/MaziyarPanahi/Nemotron-Cascade-2-SFT-Data-Small
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-Cascade-2-SFT-Data-Small 是 nvidia/Nemotron-Cascade-2-SFT-Data 数据集的 20% 随机样本,合并为一个包含 4,898,804 条数据的训练集。该数据集专为监督微调(SFT)任务设计,涵盖数学、科学、聊天、安全、指令遵循、对话代理、软件工程和终端代理等多个领域。数据集结构包括域(domain)、数据来源(source)、消息列表(messages)和生成模型(generator)等字段。消息列表包含角色(role)和内容(content)两个子字段。数据集以 Parquet 格式存储,采用 zstd 压缩,分为 10 个分片,总计约 35 GB。使用示例展示了如何通过 Hugging Face 的 datasets 库加载数据。
创建时间:
2026-03-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作