Light-R1-SFT
收藏Hugging Face2025-03-05 更新2025-03-06 收录
下载链接:
https://huggingface.co/datasets/qihoo360/Light-R1-SFT
下载链接
链接失效反馈官方服务:
资源简介:
Light-R1是一个基于课程学习策略(SFT和DPO)训练的数学模型,从零开始,不依赖于具有长期上下文能力的模型。它使用了经过去污染处理的数学数据集进行训练,并在AIME24和AIME25竞赛中取得了比R1-Distill更好的成绩。
Light-R1 is a mathematical model trained from scratch using curriculum learning strategies including Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO), without relying on models with long-context capabilities. It was trained on decontaminated mathematical datasets, and achieved better performance than R1-Distill in the AIME24 and AIME25 competitions.
创建时间:
2025-03-04
搜集汇总
数据集介绍

构建方式
Light-R1-SFT数据集的构建采用了一种两阶段的微调策略,即先通过课程学习策略(Curriculum SFT)对模型进行初步训练,再通过对比对数概率优化(DPO)进行精细调整。首先,通过采集公开的数学数据集并对数据进行去污染处理,构建了76k的SFT第一阶段数据集和3k的SFT第二阶段数据集。接着,使用DeepSeek-R1模型对这些问题进行回答并筛选,形成DPO对,以此对模型进行进一步训练。
特点
该数据集的特点在于:一是采用课程学习策略,逐步提升模型的数学问题解决能力;二是通过数据去污染处理,确保训练数据的质量和有效性;三是结合DPO技术,优化模型的生成质量。此外,该数据集的开源发布,为研究者和开发者提供了低成本、高效的模型训练资源。
使用方法
使用该数据集时,用户需要先通过第一阶段和第二阶段的SFT数据对模型进行训练,然后利用DPO技术对模型进行优化。训练过程可以在12台H800机器上完成,预计耗时不超过6小时。同时,用户可以参考提供的训练脚本和评估代码,以便在模型训练和评估过程中获得更好的性能表现。
背景与挑战
背景概述
Light-R1-SFT数据集源于对数学领域模型训练的研究,由奇虎360团队开发并于2025年发布。该数据集的核心研究问题是提高数学竞赛题目的解决能力,特别是AIME(美国数学竞赛)的题目。通过从 scratch 开始训练,不依赖具有长期上下文能力的模型,Light-R1-SFT在AIME24和AIME25竞赛中取得了显著的成果,其模型Light-R1-32B在AIME24上的得分达到76.6,超过了之前基于Llama-3.3-70B-Instruct和Qwen2.5-32B的模型。该数据集的发布对数学领域模型训练的研究具有重要的推动作用,提供了从零开始训练强大模型的新视角和方法。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1) 如何从零开始训练出具有强大数学解题能力的模型,这涉及到了训练数据的选取、处理以及模型架构的设计;2) 数据集的质量控制,特别是在防止数据污染方面,需要确保训练数据与测试数据的有效分离,避免泄露导致模型性能的评估失真;3) 在有限的计算资源下,如何高效地进行模型训练,包括采用课程学习策略以及数据增强技术来提升模型性能。
常用场景
经典使用场景
Light-R1-SFT数据集在数学竞赛题目解答领域的应用尤为经典。该数据集通过精心设计的两阶段SFT(Soft Prompt Tuning)训练流程,以及数据净化、课程学习策略和DPO(数据对比优化)技术,显著提升了模型在数学题目上的表现。具体而言,该数据集被用于训练Light-R1-32B模型,该模型在AIME24和AIME25竞赛中取得了卓越的成绩,超越了此前基于R1-Distill的模型。
解决学术问题
该数据集解决了学术研究中如何在无长COT(Context Overlap Tuning)的模型基础上,通过有效的数据集和训练策略,实现模型性能显著提升的问题。它通过课程SFT和DPO技术,提高了模型在数学题目上的准确性和泛化能力,为相关领域的学术研究提供了新的视角和方法。
衍生相关工作
基于Light-R1-SFT数据集的研究衍生出了一系列相关工作,如对模型合并策略的研究、对数据净化技术的探索,以及如何在成本可控的情况下实现高性能模型训练的实践。这些工作进一步推动了长COT模型从零开始训练的实用方法的发展,为未来相关领域的研究奠定了基础。
以上内容由遇见数据集搜集并总结生成



