GRPO-LEAD-SFTData
收藏github2025-04-17 更新2025-04-18 收录
下载链接:
https://github.com/aeroplanepaper/GRPO-LEAD
下载链接
链接失效反馈官方服务:
资源简介:
我们发布了GRPO-LEAD-SFTData,这是一个包含12,153个高质量数学问题的集合,由QwQ-32B生成,主要来源于DeepScaler,难度大于1。它作为GRPO-LEAD阶段1 SFT的训练骨干,并使用LLaMA Factory进行SFT阶段。
We hereby release GRPO-LEAD-SFTData, a collection of 12,153 high-quality mathematical problems generated by QwQ-32B. Primarily sourced from DeepScaler with a difficulty level exceeding 1, this dataset serves as the training backbone for Stage 1 SFT of GRPO-LEAD, and the SFT training phase is conducted using LLaMA Factory.
创建时间:
2025-04-12
原始信息汇总
GRPO-LEAD数据集概述
数据集基本信息
- 名称: GRPO-LEAD-SFTData
- 存储位置: Hugging Face数据集库
- 数据量: 12,153条高质量数学问题
- 数据来源: 主要由QwQ-32B生成,主要来源于DeepScaler且难度>1的问题
数据集用途
- 用于GRPO-LEAD模型的第一阶段监督微调(SFT)
- 使用LLaMA Factory进行SFT阶段训练
数据文件结构
- 原始训练数据目录:
grpo-lead/data/train/ - 数据预处理笔记本:
grpo-lead/data/preprocess/data_preprocess.ipynb - 数据格式转换脚本:
python scripts/data/process_dataset.py(将原始.json数据转换为.parquet格式)
相关模型
- 基础模型: LEAD-14B
- 训练脚本:
scripts/train/ds_14b_sft_stage1.sh
评估结果
| 模型名称 | AIME24 Cons@32 | AIME24 Pass@1 | AIME24 Len_avg | AIME25 Cons@32 | AIME25 Pass@1 | AIME25 Len_avg |
|---|---|---|---|---|---|---|
| DeepSeek-Distilled-14B | 0.800 | 0.614 | 9182 | 0.633 | 0.429 | 10046 |
| Light-R1-14B | 0.833 | 0.641 | 9571 | 0.767 | 0.505 | 10194 |
| LEAD-14B-stage1 | 0.833 | 0.629 | 8790 | 0.767 | 0.523 | 9371 |
| LEAD-14B-stage3 | 0.867 | 0.650 | 8267 | 0.767 | 0.539 | 8668 |
引用信息
bibtex @misc{zhang2025grpoleaddifficultyawarereinforcementlearning, title={GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models}, author={Jixiao Zhang and Chunsheng Zuo}, year={2025}, eprint={2504.09696}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.09696}, }
搜集汇总
数据集介绍

构建方式
GRPO-LEAD-SFTData数据集的构建基于高质量数学问题的生成与筛选过程。该数据集包含12,153道数学问题,主要由QwQ-32B模型生成,并来源于DeepScaler框架中难度大于1的问题。数据预处理通过专门的脚本和Jupyter笔记本完成,将原始JSON格式转换为适合训练的Parquet格式,确保了数据的结构化和高效处理。
特点
GRPO-LEAD-SFTData数据集以其高质量和多样性著称,专注于数学推理任务的训练。该数据集不仅覆盖了广泛的数学问题类型,还特别标注了问题的难度等级,为模型训练提供了明确的目标导向。其简洁且结构化的数据格式便于直接应用于监督微调(SFT)阶段,显著提升了模型在数学推理任务中的表现。
使用方法
使用GRPO-LEAD-SFTData数据集时,需通过LLaMA Factory工具进行监督微调(SFT)阶段的训练。用户可按照提供的脚本和预处理流程,将数据转换为适合训练的格式。数据集支持多种训练配置,用户可根据需求调整参数,如温度值和最小概率阈值,以优化模型在数学推理任务中的生成效果。
背景与挑战
背景概述
GRPO-LEAD-SFTData数据集由PlanePaper团队于2025年发布,旨在为大型语言模型(LLMs)在数学推理任务中的精细调优提供高质量数据支持。该数据集基于DeepScaler框架扩展而来,包含12,153个由QwQ-32B生成的数学问题,主要来源于难度大于1的DeepScaler数据。其核心研究问题聚焦于如何通过强化学习技术优化语言模型在数学推理中的简洁性和准确性。该数据集作为GRPO-LEAD流程中第一阶段监督微调(SFT)的训练基础,显著提升了模型在AIME24/25等数学评测中的表现,对推动数学推理领域的研究具有重要影响力。
当前挑战
GRPO-LEAD-SFTData数据集面临的挑战主要体现在两个方面:领域问题层面,数学推理任务本身对模型的逻辑严谨性和步骤简洁性要求极高,如何在保证准确性的同时减少冗余步骤成为关键难题;数据构建层面,原始数据的难度筛选与质量把控需要精细处理,且数据格式转换(如从JSON到Parquet)过程中的信息完整性维护也颇具挑战性。此外,如何通过长度相关奖励和优势重加权等强化学习技术有效平衡推理长度与准确性,亦是该数据集应用中的核心挑战。
常用场景
经典使用场景
在数学推理任务中,GRPO-LEAD-SFTData数据集被广泛应用于语言模型的监督微调阶段。该数据集包含12,153个由QwQ-32B生成的高质量数学问题,主要来源于DeepScaler框架中难度大于1的问题。研究人员利用该数据集进行阶段一的监督微调,为后续的强化学习阶段奠定基础,特别是在提升模型推理的简洁性和准确性方面表现出色。
实际应用
GRPO-LEAD-SFTData数据集的实际应用主要集中在数学教育和自动化解题领域。教育机构可以利用该数据集训练的语言模型为学生提供更精准的数学问题解答,而自动化解题系统则可以通过该数据集提升其推理能力和解答质量。此外,该数据集还可用于研究语言模型在复杂任务中的表现,为相关领域的进一步研究提供数据基础。
衍生相关工作
GRPO-LEAD-SFTData数据集衍生了多个经典工作,其中包括基于DeepScaler框架的扩展研究以及LEAD-14B模型的开发。这些工作进一步优化了语言模型在数学推理任务中的表现,特别是在长度相关奖励、显式惩罚和难度感知优势重加权等方面取得了突破。相关研究成果已在arXiv等平台发表,并得到了学术界的广泛关注。
以上内容由遇见数据集搜集并总结生成



