SFT-Dataset
收藏Hugging Face2026-03-27 更新2026-03-28 收录
下载链接:
https://huggingface.co/datasets/96kevinli29/SFT-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
SFT-Dataset 是一个用于监督微调基础模型(如 Qwen/Qwen3-4B-Base 或 Qwen/Qwen3-8B-Base)的高质量数据集,旨在为后续的强化学习奠定良好基础。该数据集包含数学、推理、代码和科学等多个领域的混合数据,总量在 10K 到 100K 之间,具体分为约 49K 的训练集(train.parquet)和 1K 的测试集(test.parquet)。数据来源包括 OpenR1-Math-220k、NuminaMath-CoT、Magpie-Llama-3.1-Pro-300K-Filtered、CodeFeedback-Filtered-Instruction、ScienceQA 以及内部科学数据切片。数据集格式为 parquet,包含 'messages'、'data_source' 和 'category' 三个字段。数据风格多样,部分数学和科学数据使用 Qwen 风格的标记,而逻辑和代码数据则多为普通答案。数据集适用于文本生成任务,尤其适合需要高质量监督微调的场景。
创建时间:
2026-03-22
搜集汇总
数据集介绍

构建方式
在构建高质量监督微调数据集的背景下,SFT-Dataset通过精心策划多源异构数据实现了均衡的配方设计。该数据集整合了来自数学推理、代码生成及科学问答等领域的六个权威上游数据源,包括OpenR1-Math-220k、NuminaMath-CoT、Magpie-Llama-3.1-Pro-300K-Filtered等,并辅以内部构建的科学知识切片。构建过程中采用了严格的质量控制流程,针对各源数据设定了精确的目标采样数量,最终形成包含约4.9万训练样本与1千测试样本的结构化集合,所有数据均以标准化的parquet格式存储,并标注了来源与类别信息。
特点
该数据集的核心特征体现在其面向复杂推理任务的高质量与平衡性。数据内容覆盖数学推导、代码反馈、科学问题解答等多个高难度认知领域,确保了模型在跨领域推理能力上的均衡发展。样本呈现多样化的助手响应风格,数学与科学类问题常采用Qwen风格的思维链标记,而逻辑与代码类任务则多使用简洁答案格式,这种混合风格有助于模型适应不同的输出规范。数据规模控制在十万以下,既保证了足够的训练密度,又避免了过度冗余,为后续强化学习阶段奠定了优质的策略初始化基础。
使用方法
使用本数据集进行模型微调时,需重点关注数据格式与模型架构的适配性。数据集以messages、data_source、category三列结构组织,用户应依据所选基座模型的对话模板与思维策略对样本进行格式化处理,特别是对于包含</think>标记的思维链数据需保持结构一致性。建议将数据集加载至支持parquet格式的深度学习框架中,按照约49:1的训练测试比例划分进行监督微调训练。实践者可参考已发布的Qwen3-4B-SFT模型训练代码,在微调过程中注意遵守各上游数据源的许可协议,并在学术成果中规范引用相关数据来源。
背景与挑战
背景概述
在大型语言模型(LLM)的演进历程中,监督微调(SFT)是提升模型在特定任务上指令遵循与推理能力的关键环节。SFT-Dataset由研究人员Hongyang Li与Xiao Li于2026年构建,旨在为Qwen等基础模型提供高质量、多领域且难度均衡的微调数据。该数据集聚焦于数学推理、代码生成与科学问答等复杂认知任务,其核心研究问题在于如何通过精心配比的数据混合,为后续的强化学习阶段奠定坚实的策略基础。通过整合OpenR1-Math-220k、NuminaMath-CoT等多个权威上游数据集,SFT-Dataset不仅推动了开源模型在专业领域的能力边界,也为高效、可复现的模型对齐研究提供了重要资源。
当前挑战
SFT-Dataset致力于解决大语言模型在复杂推理与多领域指令遵循任务中的泛化能力挑战,其核心在于如何让模型从高质量监督信号中学习精确的思维链与问题解决模式。在构建过程中,首要挑战是实现数据源间的平衡配比,确保数学、代码与科学等不同领域的数据既能覆盖足够难度,又能保持风格与格式的协调。其次,数据格式的统一与适配亦构成显著障碍,例如需将不同上游数据集的多样化输出结构(如Qwen风格的思考标签与普通答案)整合为一致的微调格式,同时严格遵循质量控制以剔除噪声样本。此外,复合许可协议的管理要求使用者审慎处理各上游数据集的版权约束,增加了合规使用的复杂性。
常用场景
经典使用场景
在大型语言模型的监督微调领域,SFT-Dataset凭借其精心设计的混合配方,为模型在数学推理、代码生成和科学问答等高难度任务上的性能提升提供了经典范例。该数据集通过整合OpenR1-Math-220k、NuminaMath-CoT等高质量源数据,构建了一个平衡且多样化的训练语料库,专门用于对基础模型进行有监督的精细调优,旨在显著增强模型在复杂逻辑推理和跨学科问题解决方面的能力。
实际应用
在实际部署中,基于SFT-Dataset微调的模型能够直接服务于智能教育辅导、自动化代码审查以及科研辅助分析等场景。例如,在编程学习平台中,模型可提供精准的代码反馈与调试建议;在学术研究环节,它能协助研究人员解析复杂的科学问题并生成逻辑严谨的解答,显著提升了人机协作的效率和智能化水平。
衍生相关工作
以该数据集为训练基础衍生的经典工作包括Qwen3-4B-SFT等公开模型,这些模型在多项基准测试中展示了卓越的推理性能。相关研究进一步探索了监督微调与强化学习的衔接策略,推动了如base-model-sft-verl等开源训练框架的发展,为社区在高效模型对齐与优化方法上提供了重要的实践参考和可复现的范例。
以上内容由遇见数据集搜集并总结生成



