SFT-Collection
收藏Hugging Face2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/ahmad21omar/SFT-Collection
下载链接
链接失效反馈官方服务:
资源简介:
SFT-Collection 是一个经过去重的监督微调(SFT)数据集集合,专为推理模型设计。数据集包含两个主要子集:'default' 子集包含来自10个源数据集的英语推理数据,涵盖数学(55.5%)、代码(20.2%)、科学(6.5%)和推理(4.1%)等领域,共13,258,042个样本;'multilingual_en_reasoning' 子集包含将英语推理数据翻译/蒸馏成的五种语言数据(德语、意大利语、法语、日语和西班牙语),共3,859,038个样本,每种语言作为独立的分割提供。数据集经过质量过滤和去重处理,原始19,266,321条数据经过处理后保留17,117,080条。数据来源包括nvidia/Nemotron-Math-v2、nvidia/Nemotron-Post-Training-Dataset-v2等多个公开数据集。
创建时间:
2026-04-01
搜集汇总
数据集介绍

构建方式
在人工智能领域,高质量的训练数据是提升模型推理能力的关键。SFT-Collection数据集的构建过程体现了严谨的数据工程理念。该数据集通过整合来自十个不同来源的原始数据,初始汇集了超过一千九百万条样本。随后,执行了多层次的去重与净化流程:首先应用质量过滤以剔除低质量条目,接着采用模糊去重技术移除语义相近的重复内容,最后进行数据集内部基于示例标识符的精确去重。经过这一系列处理,最终保留了约一千七百万条高质量样本,确保了数据集的纯净度与多样性。
特点
作为面向监督微调的数据集,SFT-Collection展现出鲜明的结构化特征与领域覆盖广度。其核心由两个主要配置构成:默认配置专注于英语推理数据,涵盖数学、编程、科学及通用推理等多个领域,其中数学类数据占比过半,形成了坚实的数理逻辑基础。另一配置则拓展了多语言维度,通过翻译与精馏技术,将英语推理数据转化为德语、意大利语、法语、日语和西班牙语版本,并作为独立分割提供,为跨语言模型训练提供了宝贵资源。数据集整体规模庞大,结构清晰,便于研究者按需选取。
使用方法
为便利研究社区的使用,该数据集提供了灵活便捷的加载方式。用户可通过Hugging Face的`datasets`库直接访问。对于默认的英语推理数据,指定配置名称即可加载完整的训练集。若需使用多语言部分,则可在加载时指定`multilingual_en_reasoning`配置,并可进一步选择特定语言分割(如`de`代表德语)或加载全部语言数据。数据集以Parquet格式存储,确保了高效的读取性能。此外,还提供了预览配置,方便用户快速查看数据样本结构,为大规模实验前的初步探索降低了门槛。
背景与挑战
背景概述
在人工智能领域,大型语言模型的监督微调(SFT)是提升模型推理与问题解决能力的关键技术。SFT-Collection数据集由研究人员ahmad21omar于近期构建并发布,旨在整合与去重多个高质量的SFT数据集,为训练具备复杂推理能力的模型提供统一、纯净的资源。该数据集的核心研究问题聚焦于如何通过系统化的数据清洗与整合,克服现有SFT数据分散、冗余的局限,从而推动模型在数学、代码、科学等领域的推理性能。其影响力体现在为社区提供了一个大规模、多领域、多语言的基准数据集,显著促进了推理模型的标准化训练与评估。
当前挑战
SFT-Collection数据集致力于解决监督微调中数据质量与多样性的核心挑战。在领域问题层面,模型需处理跨数学、代码、科学等异构领域的复杂推理任务,这要求数据不仅规模庞大,还需具备高度的准确性与逻辑一致性;同时,多语言推理的引入增加了语言与文化差异带来的语义对齐难度。在构建过程中,挑战主要源于数据源的异构性与冗余性,包括从10个不同数据集中整合超过1900万条原始数据,并通过质量过滤、模糊去重及内部去重等多步骤流程,以消除约215万条重复或低质量样本,确保最终数据集的纯净度与代表性。
常用场景
经典使用场景
在自然语言处理领域,SFT-Collection数据集作为监督微调资源的集成,其经典使用场景聚焦于提升大型语言模型的推理能力。该数据集通过整合数学、代码、科学及逻辑推理等多领域数据,为模型提供了丰富的指令遵循与复杂问题求解的训练样本,广泛应用于模型在思维链生成、多步骤推理等任务上的性能优化。
解决学术问题
该数据集有效应对了学术界在构建高质量监督微调数据时面临的挑战,如数据冗余、领域覆盖不均及多语言资源匮乏等问题。通过严格的去重与质量过滤流程,它确保了训练样本的多样性与纯净度,为研究模型泛化能力、跨领域知识迁移及多语言推理性能提供了标准化基准,推动了指令微调与推理模型的前沿探索。
衍生相关工作
基于SFT-Collection衍生的经典工作包括对Nemotron-Math、Dolci-Think等源数据集的深度利用与扩展研究。这些工作进一步优化了数据蒸馏与翻译策略,促进了多语言推理模型的训练框架创新,并为后续如混合思维、思维链增强等微调方法的比较与评估提供了关键数据支撑,持续丰富了监督微调技术生态。
以上内容由遇见数据集搜集并总结生成



