Light-R1 数据集

Name: Light-R1 数据集
Creator: 奇元科技
Published: 2025-03-13 23:29:22
License: 暂无描述

arXiv2025-03-13 更新2025-03-15 收录

下载链接：

https://github.com/Qihoo360/Light-R1

下载链接

链接失效反馈

官方服务：

资源简介：

Light-R1数据集是由奇元科技创建的，用于训练长链推理（long COT）模型。该数据集包含了大量数学问题，经过严格的预处理和难度筛选，以保证数据质量。数据集分为两个阶段，第一阶段包含76k个经过筛选的数学问题，第二阶段包含3k个高难度问题。这个数据集不仅提升了Light-R1系列模型在数学领域的性能，还通过强化学习进一步提高了模型的表现。

The Light-R1 dataset was created by Qiyuan Technology for training long chain-of-thought (long COT) models. This dataset contains a large number of mathematical problems, which have undergone strict preprocessing and difficulty filtering to ensure data quality. The dataset is divided into two stages: the first stage includes 76k filtered mathematical problems, while the second stage contains 3k high-difficulty problems. This dataset not only improves the performance of the Light-R1 series models in the mathematical domain, but also further enhances model performance via reinforcement learning.

提供机构：

奇元科技

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

Light-R1数据集的构建方式采用了两阶段SFT（Softmax Tuning）和半策略DPO（Distillation Policy Optimization）的教案式训练方法。首先，从Qwen2.5-32B-Instruct模型开始，通过在数学数据上训练，使模型具备长COT能力。其次，使用3k个高难度数学问题的数据集对DeepSeek-R1-Distilled模型进行微调，显著提高了模型在数学推理任务上的表现。

特点

Light-R1数据集的特点在于其构建的细致性和高效性。数据集通过两阶段的难度筛选方法，确保了训练数据的难度逐步提升，从而有效地提高了模型的推理能力。此外，该数据集还展示了在小模型上进行强化学习（RL）的可能性，通过在14B模型上进行GRPO训练，实现了数学推理性能的提升。

使用方法

使用Light-R1数据集时，首先需要进行数据准备，包括数据收集、数据清洗和数据生成。数据收集阶段从多个开源数据集中收集了约100万个数学问题，然后通过严格的去重和格式标准化处理。数据生成阶段，使用DeepScaleR1.5B-Preview和DeepSeek-R1-Distill-Qwen-32B模型对问题进行难度评估，并生成长COT回答。接下来，根据模型的特性，采用两阶段SFT训练，随后进行DPO优化。最后，可以进一步对模型进行强化学习训练，以进一步提升推理性能。

背景与挑战

背景概述

Light-R1数据集的研究背景概述：Light-R1数据集是针对长链推理（Long COT）模型的训练而构建的。这一领域自DeepSeek-R1发布以来，受到了广泛关注。然而，全容量的R1级模型（通常拥有70B+参数）部署时计算成本高昂，限制了其在边缘设备和实时应用中的实用性。为了解决这个问题，Light-R1数据集致力于在有限的参数（约10B）下，开发出能够执行长链推理的紧凑模型。该数据集的核心研究问题是如何从零开始训练长链推理模型，并通过有效的数据集和算法创新来优化模型性能。Light-R1系列的工作验证了从零开始训练长链推理模型的可行性，展示了SFT数据和RL训练在提升模型推理性能方面的艺术，并发布了性能卓越的模型。

当前挑战

Light-R1数据集相关的挑战：1) 长链推理模型的训练挑战：训练具有长链推理能力的模型需要大量的计算资源，而且模型的性能优化是一个复杂的过程。2) 构建过程中所遇到的挑战：在构建Light-R1数据集的过程中，研究人员面临了数据收集、清洗和难度筛选等多方面的挑战。此外，如何有效地利用这些数据，以及如何通过强化学习进一步提升模型性能，也是研究人员需要解决的问题。

常用场景

经典使用场景

Light-R1数据集在长链条推理模型训练中具有广泛应用。该数据集通过课程学习策略，包括两阶段SFT和半在线策略DPO，从零开始训练长链条推理模型，并在数学推理方面取得了优异的性能。此外，该数据集的第二阶段SFT数据集对其他模型也具有显著的提升作用，通过微调DeepSeek-R1-Distill模型，获得了新的SOTA模型。最后，该数据集还通过强化学习进一步提升了推理性能，成功训练了最终模型Light-R1-14B-DS，在数学推理方面取得了SOTA性能。

实际应用

Light-R1数据集在实际应用场景中具有广泛的应用前景。该数据集在数学推理、算法规划和科学分析等方面表现出色，为资源受限环境下的推理模型训练提供了新的可能性。此外，该数据集的第二阶段SFT数据集对其他模型也具有显著的提升作用，可以应用于各种推理场景中。最后，该数据集通过强化学习进一步提升了推理性能，为实际应用中的推理问题提供了更好的解决方案。

衍生相关工作

Light-R1数据集的发布衍生了许多相关的研究工作。例如，基于Light-R1数据集的训练方法被广泛应用于长链条推理模型的训练中，并取得了优异的性能。此外，Light-R1数据集的第二阶段SFT数据集也被广泛应用于其他模型的微调中，进一步提升模型的性能。最后，基于Light-R1数据集的强化学习训练方法也被应用于其他模型中，进一步提升模型的推理性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集