Light-R1 数据集
收藏arXiv2025-03-13 更新2025-03-15 收录
下载链接:
https://github.com/Qihoo360/Light-R1
下载链接
链接失效反馈官方服务:
资源简介:
Light-R1数据集是由奇元科技创建的,用于训练长链推理(long COT)模型。该数据集包含了大量数学问题,经过严格的预处理和难度筛选,以保证数据质量。数据集分为两个阶段,第一阶段包含76k个经过筛选的数学问题,第二阶段包含3k个高难度问题。这个数据集不仅提升了Light-R1系列模型在数学领域的性能,还通过强化学习进一步提高了模型的表现。
The Light-R1 dataset was created by Qiyuan Technology for training long chain-of-thought (long COT) models. This dataset contains a large number of mathematical problems, which have undergone strict preprocessing and difficulty filtering to ensure data quality. The dataset is divided into two stages: the first stage includes 76k filtered mathematical problems, while the second stage contains 3k high-difficulty problems. This dataset not only improves the performance of the Light-R1 series models in the mathematical domain, but also further enhances model performance via reinforcement learning.
提供机构:
奇元科技
创建时间:
2025-03-13
搜集汇总
数据集介绍

构建方式
Light-R1数据集的构建方式采用了两阶段SFT(Softmax Tuning)和半策略DPO(Distillation Policy Optimization)的教案式训练方法。首先,从Qwen2.5-32B-Instruct模型开始,通过在数学数据上训练,使模型具备长COT能力。其次,使用3k个高难度数学问题的数据集对DeepSeek-R1-Distilled模型进行微调,显著提高了模型在数学推理任务上的表现。
特点
Light-R1数据集的特点在于其构建的细致性和高效性。数据集通过两阶段的难度筛选方法,确保了训练数据的难度逐步提升,从而有效地提高了模型的推理能力。此外,该数据集还展示了在小模型上进行强化学习(RL)的可能性,通过在14B模型上进行GRPO训练,实现了数学推理性能的提升。
使用方法
使用Light-R1数据集时,首先需要进行数据准备,包括数据收集、数据清洗和数据生成。数据收集阶段从多个开源数据集中收集了约100万个数学问题,然后通过严格的去重和格式标准化处理。数据生成阶段,使用DeepScaleR1.5B-Preview和DeepSeek-R1-Distill-Qwen-32B模型对问题进行难度评估,并生成长COT回答。接下来,根据模型的特性,采用两阶段SFT训练,随后进行DPO优化。最后,可以进一步对模型进行强化学习训练,以进一步提升推理性能。
背景与挑战
背景概述
Light-R1数据集的研究背景概述:Light-R1数据集是针对长链推理(Long COT)模型的训练而构建的。这一领域自DeepSeek-R1发布以来,受到了广泛关注。然而,全容量的R1级模型(通常拥有70B+参数)部署时计算成本高昂,限制了其在边缘设备和实时应用中的实用性。为了解决这个问题,Light-R1数据集致力于在有限的参数(约10B)下,开发出能够执行长链推理的紧凑模型。该数据集的核心研究问题是如何从零开始训练长链推理模型,并通过有效的数据集和算法创新来优化模型性能。Light-R1系列的工作验证了从零开始训练长链推理模型的可行性,展示了SFT数据和RL训练在提升模型推理性能方面的艺术,并发布了性能卓越的模型。
当前挑战
Light-R1数据集相关的挑战:1) 长链推理模型的训练挑战:训练具有长链推理能力的模型需要大量的计算资源,而且模型的性能优化是一个复杂的过程。2) 构建过程中所遇到的挑战:在构建Light-R1数据集的过程中,研究人员面临了数据收集、清洗和难度筛选等多方面的挑战。此外,如何有效地利用这些数据,以及如何通过强化学习进一步提升模型性能,也是研究人员需要解决的问题。
常用场景
经典使用场景
Light-R1数据集在长链条推理模型训练中具有广泛应用。该数据集通过课程学习策略,包括两阶段SFT和半在线策略DPO,从零开始训练长链条推理模型,并在数学推理方面取得了优异的性能。此外,该数据集的第二阶段SFT数据集对其他模型也具有显著的提升作用,通过微调DeepSeek-R1-Distill模型,获得了新的SOTA模型。最后,该数据集还通过强化学习进一步提升了推理性能,成功训练了最终模型Light-R1-14B-DS,在数学推理方面取得了SOTA性能。
实际应用
Light-R1数据集在实际应用场景中具有广泛的应用前景。该数据集在数学推理、算法规划和科学分析等方面表现出色,为资源受限环境下的推理模型训练提供了新的可能性。此外,该数据集的第二阶段SFT数据集对其他模型也具有显著的提升作用,可以应用于各种推理场景中。最后,该数据集通过强化学习进一步提升了推理性能,为实际应用中的推理问题提供了更好的解决方案。
衍生相关工作
Light-R1数据集的发布衍生了许多相关的研究工作。例如,基于Light-R1数据集的训练方法被广泛应用于长链条推理模型的训练中,并取得了优异的性能。此外,Light-R1数据集的第二阶段SFT数据集也被广泛应用于其他模型的微调中,进一步提升模型的性能。最后,基于Light-R1数据集的强化学习训练方法也被应用于其他模型中,进一步提升模型的推理性能。
以上内容由遇见数据集搜集并总结生成



