FastCuRL-1.5B-Preview
收藏FastCuRL 数据集概述
数据集简介
FastCuRL 是一个用于提高 R1 类推理模型训练效率的数据集,通过课程引导的迭代延长强化学习(Curriculum-Guided Iterative Lengthening Reinforcement Learning)方法,显著减少了训练步骤。该数据集基于 DeepSeek-R1-Distill-Qwen-1.5B 模型,并在多个数学推理任务上表现出色。
数据集内容
- 训练数据:包含 40,315 个独特的问题-答案对,数据来源包括:
- AIME 问题(1984-2023)
- AMC 问题(2023 年之前)
- Omni-MATH 数据集
- Still 数据集
- 数据分割:采用条件敏感的数据分割方法,将原始数据集分为三个子集。
训练策略
FastCuRL 提出了课程引导的迭代延长训练策略,分为四个阶段:
- 阶段 I:8K 上下文长度,约 160 步
- 阶段 II:16K 上下文长度,约 590 步
- 阶段 III:24K 上下文长度,约 230 步
- 阶段 IV:24K 上下文长度,约 580 步
训练结果
- 训练步骤:FastCuRL-1.5B-Preview 仅需约 860 步,相比 DeepScaleR-1.5B-Preview 的 1,750 步,减少了 50%。
- 性能表现:在多个数学推理任务上,FastCuRL-1.5B-Preview 的表现优于其他模型,具体结果如下:
| 模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | OlympiadBench | 平均 |
|---|---|---|---|---|---|---|
| FastCuRL-1.5B-Preview | 43.1 | 88.0 | 74.2 | 31.6 | 50.4 | 57.5 |
训练脚本
提供了详细的训练脚本,支持在不同上下文长度下进行训练: bash
8K 上下文长度训练,160 步
bash ./scripts/train/run_fastcurl_1.5b_8k_stage1.sh | tee -a fastcurl-1.5b-stage1.log
16K 上下文长度训练,590 步
bash ./scripts/train/run_fastcurl_1.5b_16k_stage2.sh | tee -a fastcurl-1.5b-stage2.log
24K 上下文长度训练,230 步
bash ./scripts/train/run_fastcurl_1.5b_24k_stage3.sh | tee -a fastcurl-1.5b-stage3.log
24K 上下文长度训练,580 步
bash ./scripts/train/run_fastcurl_1.5b_24k_stage4.sh | tee -a fastcurl-1.5b-stage4.log
引用
bibtex @misc{fastcurl2025, title={FastCuRL: Improving RL Training Efficiency of R1-like Reasoning Models via Curriculum-Guided Iterative Lengthening}, author={Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang}, year={2025}, howpublished={url{https://github.com/nick7nlp/FastCuRL/blob/main/FastCuRL.pdf}}, note={Technical Report} }
致谢
- 基于
DeepSeek-R1-Distill-Qwen-1.5B模型进行训练。 - 使用了 verl 的修改版本进行训练实验。
- 使用了 DeepScaleR 的 代码 进行实验。




