Light-R1-SFT

Hugging Face2025-03-05 更新2025-03-06 收录

下载链接：

https://huggingface.co/datasets/qihoo360/Light-R1-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

Light-R1是一个基于课程学习策略（SFT和DPO）训练的数学模型，从零开始，不依赖于具有长期上下文能力的模型。它使用了经过去污染处理的数学数据集进行训练，并在AIME24和AIME25竞赛中取得了比R1-Distill更好的成绩。

Light-R1 is a mathematical model trained from scratch using curriculum learning strategies including Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO), without relying on models with long-context capabilities. It was trained on decontaminated mathematical datasets, and achieved better performance than R1-Distill in the AIME24 and AIME25 competitions.

创建时间：

2025-03-04

搜集汇总

数据集介绍

构建方式

Light-R1-SFT数据集的构建采用了一种两阶段的微调策略，即先通过课程学习策略（Curriculum SFT）对模型进行初步训练，再通过对比对数概率优化（DPO）进行精细调整。首先，通过采集公开的数学数据集并对数据进行去污染处理，构建了76k的SFT第一阶段数据集和3k的SFT第二阶段数据集。接着，使用DeepSeek-R1模型对这些问题进行回答并筛选，形成DPO对，以此对模型进行进一步训练。

特点

该数据集的特点在于：一是采用课程学习策略，逐步提升模型的数学问题解决能力；二是通过数据去污染处理，确保训练数据的质量和有效性；三是结合DPO技术，优化模型的生成质量。此外，该数据集的开源发布，为研究者和开发者提供了低成本、高效的模型训练资源。

使用方法

使用该数据集时，用户需要先通过第一阶段和第二阶段的SFT数据对模型进行训练，然后利用DPO技术对模型进行优化。训练过程可以在12台H800机器上完成，预计耗时不超过6小时。同时，用户可以参考提供的训练脚本和评估代码，以便在模型训练和评估过程中获得更好的性能表现。

背景与挑战

背景概述

Light-R1-SFT数据集源于对数学领域模型训练的研究，由奇虎360团队开发并于2025年发布。该数据集的核心研究问题是提高数学竞赛题目的解决能力，特别是AIME（美国数学竞赛）的题目。通过从 scratch 开始训练，不依赖具有长期上下文能力的模型，Light-R1-SFT在AIME24和AIME25竞赛中取得了显著的成果，其模型Light-R1-32B在AIME24上的得分达到76.6，超过了之前基于Llama-3.3-70B-Instruct和Qwen2.5-32B的模型。该数据集的发布对数学领域模型训练的研究具有重要的推动作用，提供了从零开始训练强大模型的新视角和方法。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1) 如何从零开始训练出具有强大数学解题能力的模型，这涉及到了训练数据的选取、处理以及模型架构的设计；2) 数据集的质量控制，特别是在防止数据污染方面，需要确保训练数据与测试数据的有效分离，避免泄露导致模型性能的评估失真；3) 在有限的计算资源下，如何高效地进行模型训练，包括采用课程学习策略以及数据增强技术来提升模型性能。

常用场景

经典使用场景

Light-R1-SFT数据集在数学竞赛题目解答领域的应用尤为经典。该数据集通过精心设计的两阶段SFT（Soft Prompt Tuning）训练流程，以及数据净化、课程学习策略和DPO（数据对比优化）技术，显著提升了模型在数学题目上的表现。具体而言，该数据集被用于训练Light-R1-32B模型，该模型在AIME24和AIME25竞赛中取得了卓越的成绩，超越了此前基于R1-Distill的模型。

解决学术问题

该数据集解决了学术研究中如何在无长COT（Context Overlap Tuning）的模型基础上，通过有效的数据集和训练策略，实现模型性能显著提升的问题。它通过课程SFT和DPO技术，提高了模型在数学题目上的准确性和泛化能力，为相关领域的学术研究提供了新的视角和方法。

衍生相关工作

基于Light-R1-SFT数据集的研究衍生出了一系列相关工作，如对模型合并策略的研究、对数据净化技术的探索，以及如何在成本可控的情况下实现高性能模型训练的实践。这些工作进一步推动了长COT模型从零开始训练的实用方法的发展，为未来相关领域的研究奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集