five

FastCuRL-1.5B-Preview

收藏
github2025-03-20 更新2025-03-21 收录
下载链接:
https://github.com/nick7nlp/FastCuRL
下载链接
链接失效反馈
官方服务:
资源简介:
FastCuRL-1.5B-Preview 是一个慢思考推理模型,其训练数据集由40,315个独特的问题-答案对组成,这些数据来自AIME问题(1984-2023)、AMC问题(2023年之前)、Omni-MATH数据集和Still数据集。

FastCuRL-1.5B-Preview is a slow-thinking reasoning model. Its training dataset consists of 40,315 unique question-answer pairs sourced from AIME problems (1984–2023), AMC problems (pre-2023), the Omni-MATH dataset, and the Still dataset.
创建时间:
2025-03-11
原始信息汇总

FastCuRL 数据集概述

数据集简介

FastCuRL 是一个用于提高 R1 类推理模型训练效率的数据集,通过课程引导的迭代延长强化学习(Curriculum-Guided Iterative Lengthening Reinforcement Learning)方法,显著减少了训练步骤。该数据集基于 DeepSeek-R1-Distill-Qwen-1.5B 模型,并在多个数学推理任务上表现出色。

数据集内容

  • 训练数据:包含 40,315 个独特的问题-答案对,数据来源包括:
    • AIME 问题(1984-2023)
    • AMC 问题(2023 年之前)
    • Omni-MATH 数据集
    • Still 数据集
  • 数据分割:采用条件敏感的数据分割方法,将原始数据集分为三个子集。

训练策略

FastCuRL 提出了课程引导的迭代延长训练策略,分为四个阶段:

  1. 阶段 I:8K 上下文长度,约 160 步
  2. 阶段 II:16K 上下文长度,约 590 步
  3. 阶段 III:24K 上下文长度,约 230 步
  4. 阶段 IV:24K 上下文长度,约 580 步

训练结果

  • 训练步骤:FastCuRL-1.5B-Preview 仅需约 860 步,相比 DeepScaleR-1.5B-Preview 的 1,750 步,减少了 50%。
  • 性能表现:在多个数学推理任务上,FastCuRL-1.5B-Preview 的表现优于其他模型,具体结果如下:
模型 AIME 2024 MATH 500 AMC 2023 Minerva Math OlympiadBench 平均
FastCuRL-1.5B-Preview 43.1 88.0 74.2 31.6 50.4 57.5

训练脚本

提供了详细的训练脚本,支持在不同上下文长度下进行训练: bash

8K 上下文长度训练,160 步

bash ./scripts/train/run_fastcurl_1.5b_8k_stage1.sh | tee -a fastcurl-1.5b-stage1.log

16K 上下文长度训练,590 步

bash ./scripts/train/run_fastcurl_1.5b_16k_stage2.sh | tee -a fastcurl-1.5b-stage2.log

24K 上下文长度训练,230 步

bash ./scripts/train/run_fastcurl_1.5b_24k_stage3.sh | tee -a fastcurl-1.5b-stage3.log

24K 上下文长度训练,580 步

bash ./scripts/train/run_fastcurl_1.5b_24k_stage4.sh | tee -a fastcurl-1.5b-stage4.log

引用

bibtex @misc{fastcurl2025, title={FastCuRL: Improving RL Training Efficiency of R1-like Reasoning Models via Curriculum-Guided Iterative Lengthening}, author={Mingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang}, year={2025}, howpublished={url{https://github.com/nick7nlp/FastCuRL/blob/main/FastCuRL.pdf}}, note={Technical Report} }

致谢

搜集汇总
数据集介绍
main_image_url
构建方式
FastCuRL-1.5B-Preview数据集的构建基于一种创新的课程引导迭代延长强化学习方法。该方法通过对DeepSeek-R1-Distill-Qwen-1.5B模型进行训练,逐步增加训练步骤,从而提升模型性能。训练数据来源于多个数学竞赛和数据集,包括AIME、AMC、Omni-MATH和Still数据集,共计40,315个独特的问题-答案对。数据集通过条件敏感的数据分割方法,将原始数据划分为三个子集,以适应不同训练阶段的需求。
特点
FastCuRL-1.5B-Preview数据集的特点在于其高效的训练策略和卓越的性能表现。相较于前一代模型DeepScaleR-1.5B-Preview,FastCuRL-1.5B-Preview在仅使用50%的训练步骤的情况下,显著提升了推理能力。该数据集在多个数学基准测试中表现优异,尤其是在AIME、MATH 500、AMC 2023等测试中,Pass@1准确率均有所提升。此外,数据集通过四阶段的训练策略,逐步增加上下文长度,进一步优化了模型的推理效率。
使用方法
FastCuRL-1.5B-Preview数据集的使用方法包括四个阶段的训练脚本,分别对应不同的上下文长度和训练步骤。用户可以通过运行提供的Bash脚本来执行每个阶段的训练,脚本中已配置了相应的GPU资源和训练参数。每个阶段的训练日志会自动保存,便于后续分析和调试。通过这种分阶段的训练方法,用户能够逐步提升模型的推理能力,并在不同的数学基准测试中验证其性能。
背景与挑战
背景概述
FastCuRL-1.5B-Preview数据集由Mingyang Song等研究人员于2025年发布,旨在通过课程引导的迭代延长强化学习(Curriculum-Guided Iterative Lengthening Reinforcement Learning)提升R1类推理模型的训练效率。该数据集基于DeepSeek-R1-Distill-Qwen-1.5B模型构建,通过优化训练步骤,显著减少了训练时间,同时保持了较高的推理性能。数据集的核心研究问题在于如何通过分阶段的训练策略,逐步提升模型在复杂数学问题上的推理能力。FastCuRL-1.5B-Preview的发布为强化学习在数学推理领域的应用提供了新的研究范式,推动了相关领域的发展。
当前挑战
FastCuRL-1.5B-Preview数据集在构建过程中面临多重挑战。首先,如何设计有效的课程引导策略以优化训练效率,同时确保模型性能的持续提升,是一个关键问题。其次,数据集的构建依赖于多个来源的数学问题,包括AIME、AMC、Omni-MATH和Still数据集,如何整合这些异构数据并确保其质量,是另一大挑战。此外,训练过程中需要处理不同上下文长度的数据,这对计算资源和算法设计提出了更高的要求。最后,如何在减少训练步骤的同时保持模型的高性能,是数据集构建和训练策略设计中的核心难题。
常用场景
经典使用场景
FastCuRL-1.5B-Preview数据集在强化学习(RL)领域中被广泛应用于提升R1类推理模型的训练效率。通过采用课程引导的迭代延长策略,该数据集能够在减少训练步骤的同时,显著提升模型在复杂数学问题上的推理能力。其经典使用场景包括数学竞赛题目的自动解答、学术论文中的推理任务验证等。
实际应用
在实际应用中,FastCuRL-1.5B-Preview数据集被用于开发智能教育系统,帮助学生和教师快速解答复杂的数学问题。此外,该数据集还被应用于自动化推理系统的开发,能够在金融、医疗等领域中提供高效的决策支持。其高效的训练策略和优异的性能使其成为实际应用中的理想选择。
衍生相关工作
FastCuRL-1.5B-Preview数据集的发布推动了多个相关研究工作的进展。例如,基于该数据集的研究成果,后续工作进一步优化了课程引导策略,提出了更高效的训练方法。此外,该数据集还启发了其他领域的研究,如自然语言处理中的推理任务优化和自动化系统的开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作