FastCuRL-1.5B-Preview

github2025-03-20 更新2025-03-21 收录

下载链接：

https://github.com/nick7nlp/FastCuRL

下载链接

链接失效反馈

官方服务：

资源简介：

FastCuRL-1.5B-Preview 是一个慢思考推理模型，其训练数据集由40,315个独特的问题-答案对组成，这些数据来自AIME问题（1984-2023）、AMC问题（2023年之前）、Omni-MATH数据集和Still数据集。

FastCuRL-1.5B-Preview is a slow-thinking reasoning model. Its training dataset consists of 40,315 unique question-answer pairs sourced from AIME problems (1984–2023), AMC problems (pre-2023), the Omni-MATH dataset, and the Still dataset.

创建时间：

2025-03-11

原始信息汇总

FastCuRL 数据集概述

数据集简介

FastCuRL 是一个用于提高 R1 类推理模型训练效率的数据集，通过课程引导的迭代延长强化学习（Curriculum-Guided Iterative Lengthening Reinforcement Learning）方法，显著减少了训练步骤。该数据集基于 DeepSeek-R1-Distill-Qwen-1.5B 模型，并在多个数学推理任务上表现出色。

数据集内容

训练数据：包含 40,315 个独特的问题-答案对，数据来源包括：
- AIME 问题（1984-2023）
- AMC 问题（2023 年之前）
- Omni-MATH 数据集
- Still 数据集
数据分割：采用条件敏感的数据分割方法，将原始数据集分为三个子集。

训练策略

FastCuRL 提出了课程引导的迭代延长训练策略，分为四个阶段：

阶段 I：8K 上下文长度，约 160 步
阶段 II：16K 上下文长度，约 590 步
阶段 III：24K 上下文长度，约 230 步
阶段 IV：24K 上下文长度，约 580 步

训练结果

训练步骤：FastCuRL-1.5B-Preview 仅需约 860 步，相比 DeepScaleR-1.5B-Preview 的 1,750 步，减少了 50%。
性能表现：在多个数学推理任务上，FastCuRL-1.5B-Preview 的表现优于其他模型，具体结果如下：

模型	AIME 2024	MATH 500	AMC 2023	Minerva Math	OlympiadBench	平均
FastCuRL-1.5B-Preview	43.1	88.0	74.2	31.6	50.4	57.5

训练脚本

提供了详细的训练脚本，支持在不同上下文长度下进行训练： bash

8K 上下文长度训练，160 步

bash ./scripts/train/run_fastcurl_1.5b_8k_stage1.sh | tee -a fastcurl-1.5b-stage1.log

16K 上下文长度训练，590 步

bash ./scripts/train/run_fastcurl_1.5b_16k_stage2.sh | tee -a fastcurl-1.5b-stage2.log

24K 上下文长度训练，230 步

bash ./scripts/train/run_fastcurl_1.5b_24k_stage3.sh | tee -a fastcurl-1.5b-stage3.log

24K 上下文长度训练，580 步

bash ./scripts/train/run_fastcurl_1.5b_24k_stage4.sh | tee -a fastcurl-1.5b-stage4.log

引用

bibtex @misc{fastcurl2025, title={FastCuRL: Improving RL Training Efficiency of R1-like Reasoning Models via Curriculum-Guided Iterative Lengthening}, author={Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang}, year={2025}, howpublished={url{https://github.com/nick7nlp/FastCuRL/blob/main/FastCuRL.pdf}}, note={Technical Report} }

致谢

基于 DeepSeek-R1-Distill-Qwen-1.5B 模型进行训练。
使用了 verl 的修改版本进行训练实验。
使用了 DeepScaleR 的代码进行实验。

搜集汇总

数据集介绍

构建方式

FastCuRL-1.5B-Preview数据集的构建基于一种创新的课程引导迭代延长强化学习方法。该方法通过对DeepSeek-R1-Distill-Qwen-1.5B模型进行训练，逐步增加训练步骤，从而提升模型性能。训练数据来源于多个数学竞赛和数据集，包括AIME、AMC、Omni-MATH和Still数据集，共计40,315个独特的问题-答案对。数据集通过条件敏感的数据分割方法，将原始数据划分为三个子集，以适应不同训练阶段的需求。

特点

FastCuRL-1.5B-Preview数据集的特点在于其高效的训练策略和卓越的性能表现。相较于前一代模型DeepScaleR-1.5B-Preview，FastCuRL-1.5B-Preview在仅使用50%的训练步骤的情况下，显著提升了推理能力。该数据集在多个数学基准测试中表现优异，尤其是在AIME、MATH 500、AMC 2023等测试中，Pass@1准确率均有所提升。此外，数据集通过四阶段的训练策略，逐步增加上下文长度，进一步优化了模型的推理效率。

使用方法

FastCuRL-1.5B-Preview数据集的使用方法包括四个阶段的训练脚本，分别对应不同的上下文长度和训练步骤。用户可以通过运行提供的Bash脚本来执行每个阶段的训练，脚本中已配置了相应的GPU资源和训练参数。每个阶段的训练日志会自动保存，便于后续分析和调试。通过这种分阶段的训练方法，用户能够逐步提升模型的推理能力，并在不同的数学基准测试中验证其性能。

背景与挑战

背景概述

FastCuRL-1.5B-Preview数据集由Mingyang Song等研究人员于2025年发布，旨在通过课程引导的迭代延长强化学习（Curriculum-Guided Iterative Lengthening Reinforcement Learning）提升R1类推理模型的训练效率。该数据集基于DeepSeek-R1-Distill-Qwen-1.5B模型构建，通过优化训练步骤，显著减少了训练时间，同时保持了较高的推理性能。数据集的核心研究问题在于如何通过分阶段的训练策略，逐步提升模型在复杂数学问题上的推理能力。FastCuRL-1.5B-Preview的发布为强化学习在数学推理领域的应用提供了新的研究范式，推动了相关领域的发展。

当前挑战

FastCuRL-1.5B-Preview数据集在构建过程中面临多重挑战。首先，如何设计有效的课程引导策略以优化训练效率，同时确保模型性能的持续提升，是一个关键问题。其次，数据集的构建依赖于多个来源的数学问题，包括AIME、AMC、Omni-MATH和Still数据集，如何整合这些异构数据并确保其质量，是另一大挑战。此外，训练过程中需要处理不同上下文长度的数据，这对计算资源和算法设计提出了更高的要求。最后，如何在减少训练步骤的同时保持模型的高性能，是数据集构建和训练策略设计中的核心难题。

常用场景

经典使用场景

FastCuRL-1.5B-Preview数据集在强化学习（RL）领域中被广泛应用于提升R1类推理模型的训练效率。通过采用课程引导的迭代延长策略，该数据集能够在减少训练步骤的同时，显著提升模型在复杂数学问题上的推理能力。其经典使用场景包括数学竞赛题目的自动解答、学术论文中的推理任务验证等。

实际应用

在实际应用中，FastCuRL-1.5B-Preview数据集被用于开发智能教育系统，帮助学生和教师快速解答复杂的数学问题。此外，该数据集还被应用于自动化推理系统的开发，能够在金融、医疗等领域中提供高效的决策支持。其高效的训练策略和优异的性能使其成为实际应用中的理想选择。

衍生相关工作

FastCuRL-1.5B-Preview数据集的发布推动了多个相关研究工作的进展。例如，基于该数据集的研究成果，后续工作进一步优化了课程引导策略，提出了更高效的训练方法。此外，该数据集还启发了其他领域的研究，如自然语言处理中的推理任务优化和自动化系统的开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集