INTELLECT-3-SFT

Hugging Face2025-09-09 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/mikasenghaas/INTELLECT-3-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

INTELLECT-3-SFT 数据集是一个由 INTELLECT-3-SFT.py 脚本生成的数据集，用于语言模型的微调。数据集包括数学、代码、科学、指令遵循和一般聊天等多个类别。每个类别都经过特定的处理，以便将其格式化为适合模型训练的结构化数据。数据集的生成涉及使用 Hugging Face Hub 和 OpenAI API 执行任务，如下载数据和生成系统提示。

创建时间：

2025-08-30

原始信息汇总

INTELLECT-3-SFT 数据集概述

基本信息

许可证: Apache-2.0
数据集名称: INTELLECT-3-SFT

数据来源

数据集整合了多个来源的数据，包括：

nvidia/Nemotron-Post-Training-Dataset-v1
nvidia/OpenCodeReasoning-2
nvidia/OpenScienceReasoning-2
a-m-team/AM-DeepSeek-R1-0528-Distilled

数据组成

数据集包含6个不同的数据分片：

math: 数学问题数据
code: 编程挑战数据
science: 科学推理数据
if: 指令遵循数据
chat: 通用对话数据
tool: 工具调用数据

数据处理

使用OpenAI GPT-5-nano模型合成系统提示
对原始数据进行消息格式转换
添加元数据信息
统一数据格式和字段

技术特征

数据格式包含prompt、completion、source、split、tools字段
支持工具调用功能
采用流式处理方式加载数据

搜集汇总

数据集介绍

构建方式

在人工智能监督微调领域，INTELLECT-3-SFT数据集通过多源异构数据融合策略构建而成。该数据集整合了数学推理、代码生成、科学问答、指令遵循、通用对话和工具调用六大核心模块，每个模块均从权威基准数据集（如Nemotron-Post-Training、OpenCodeReasoning-2等）中精选样本。采用异步OpenAI接口动态生成领域适配的系统提示词，通过概率采样机制将系统提示与原始问题组合，形成符合对话结构的指令-回复对，最终通过标准化管道完成数据清洗与格式统一。

使用方法

研究人员可通过HuggingFace数据集库直接加载该数据集，支持按六大模块拆分使用或整体训练。每个样本均以标准对话格式呈现，包含system、user、assistant三层消息结构，可直接适配主流的Transformer架构进行监督微调。建议采用课程学习策略，优先训练基础模块（如数学与指令遵循）再逐步扩展至复杂任务（如工具调用）。使用前需通过元数据字段验证数据来源与质量，并可根据split字段实现跨领域泛化性能评估。

背景与挑战

背景概述

随着大语言模型在数学推理、代码生成和科学问答等专业领域应用的深入，对高质量监督微调数据的需求日益凸显。INTELLECT-3-SFT数据集由PrimeIntellect团队基于多源权威数据集构建，整合了Nemotron后训练数据集、OpenCodeReasoning科学推理数据集及AM-DeepSeek蒸馏数据，通过自动化流程生成适配不同任务场景的系统提示，旨在提升模型在复杂认知任务中的指令遵循能力和专业领域表现。该数据集采用Apache 2.0开源协议，体现了跨领域知识融合与模型对齐技术的最新进展。

当前挑战

该数据集致力于解决多模态任务中系统提示生成的泛化性问题，其核心挑战在于如何为数学推理、代码生成和科学问答等专业领域构建具有高度适应性的指令模板。在构建过程中面临三大技术难点：一是需要从异构数据源（包括Nemotron、OpenCodeReasoning等）中提取有效问题并保持语义一致性；二是通过GPT模型自动生成系统提示时需平衡专业性与通用性，避免过度特定化；三是需要设计概率采样机制（如0.5概率添加系统提示）以确保数据多样性与模型训练稳定性的均衡。

常用场景

经典使用场景

在人工智能领域，INTELLECT-3-SFT数据集通过整合数学推理、代码生成、科学问答、指令遵循、通用对话和工具调用六大模块，为大规模语言模型的监督微调提供了标准化训练范式。该数据集采用动态系统提示生成技术，通过GPT模型自动合成领域适配的指令模板，显著提升了模型在复杂多轮对话中的上下文理解与任务执行能力，成为评估语言模型综合性能的重要基准。

解决学术问题

该数据集有效解决了语言模型在专业领域知识推理、代码语义理解、科学问题求解等方面的泛化能力不足问题。通过构建高质量的多轮对话数据与系统提示组合，为研究社区提供了探索指令微调机制、提示工程优化以及跨领域知识迁移的重要实验平台，推动了对话式AI在复杂认知任务上的理论突破与方法创新。

实际应用

实际应用中，该数据集支撑了智能教育辅导系统的开发，能够为学生提供个性化的数学解题指导与编程练习反馈。在科研辅助领域，其科学问答模块可帮助研究人员快速获取专业文献中的概念解释与实验方法建议。企业级对话系统则依托其工具调用模块实现API集成与多模态交互，显著提升了客户服务自动化水平与业务处理效率。

数据集最近研究