grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/RyanYr/grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括数据来源(data_source)、问题(problem)、解决方案(solution)、答案(answer)、提示(prompt)、奖励模型(reward_model)和响应(responses)。提示字段是一个列表,包含角色(role)和内容(content)两个子字段。奖励模型字段包含真实值(ground_truth)和风格(style)两个子字段。数据集分为多个分片,包括混合难度(mixed)和高难度(hard)两类,每类又分为10%到90%的不同比例分片。每个分片都有指定的字节数(num_bytes)和样本数(num_examples)。数据集总下载大小为723349901字节,总数据集大小为732671236字节。
创建时间:
2026-04-23
原始信息汇总
根据您提供的数据集详情页面信息,以下是对该数据集的概述总结:
数据集名称
RyanYr/grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval
数据集简介
该数据集是一个用于数学评估(Math Eval)任务的离线强化学习(GRPO/DAPO)训练数据集,基于Qwen3-4B-Base模型生成,包含多组不同难度和混合比例的数据分片。
数据结构
每个样本包含以下字段:
- data_source: 字符串,数据来源。
- problem: 字符串,数学问题描述。
- solution: 字符串,解答过程。
- answer: 字符串,最终答案。
- prompt: 列表,包含角色(role)和内容(content)的对话结构。
- reward_model: 结构体,包含真实答案(ground_truth)和风格(style)字段。
- responses: 字符串列表,模型生成的多个回答。
数据分片
数据集包含20个分片(split),分为两种难度类型和多个阈值:
| 难度类型 | 阈值 | 样本数 | 大小(字节) |
|---|---|---|---|
| mixed(混合) | .10 | 1,447 | 17,156,371 |
| mixed | .20 | 1,447 | 35,273,635 |
| mixed | .30 | 1,447 | 33,653,277 |
| mixed | .40 | 1,447 | 31,632,888 |
| mixed | .50 | 1,447 | 28,101,594 |
| mixed | .60 | 1,447 | 26,358,700 |
| mixed | .70 | 1,447 | 25,752,459 |
| mixed | .80 | 1,447 | 27,114,119 |
| mixed | .90 | 1,447 | 29,101,440 |
| hard(困难) | .10 | 100 | 39,506,481 |
| hard | .20 | 100 | 51,506,050 |
| hard | .30 | 100 | 48,493,270 |
| hard | .40 | 100 | 49,866,114 |
| hard | .50 | 100 | 54,626,675 |
| hard | .60 | 100 | 57,015,991 |
| hard | .70 | 100 | 57,665,157 |
| hard | .80 | 100 | 59,256,957 |
| hard | .90 | 100 | 60,590,058 |
数据集规模
- 下载大小: 723,349,901 字节(约690 MB)
- 数据集总大小: 732,671,236 字节(约699 MB)
配置与文件
- 默认配置名:default
- 每个分片对应的数据文件路径为:
data/{split名称}-*(例如data/mixed.60-*)
关键特点
- 数据集专为数学推理离线强化学习场景设计。
- 包含混合难度(mixed)和纯困难(hard)两种类型,每种类型对应不同的阈值(.10 到 .90),便于分阶段训练或评估。
- mixed分片各有1,447个样本,hard分片各有100个样本。
- 数据包含问题、解答、答案、对话提示、模型响应及奖励模型相关信息。
搜集汇总
数据集介绍

构建方式
该数据集源于对Qwen3-4B-Base模型在数学评估任务中实施GRPO与DAPO混合强化学习策略的离线训练过程。通过整合不同难度的数学问题,构建了混合(mixed)与困难(hard)两大类别,每个类别下依据训练步数或数据比例细分为从10%至90%不等的多个子集。每个样本均包含原始问题、标准解答、最终答案、格式化对话提示、奖励机制(包含标准答案与风格评估)以及模型生成的多个候选回复。这种分阶段、分层级的构建方式,旨在系统性地记录模型在不同训练阶段与不同难度任务上的表现数据。
特点
该数据集呈现出鲜明的多维结构与分层特性。所有样本均以json格式存储,支持灵活的数据加载与分布式处理。其核心特征在于同时覆盖混合难度与高难度两类数学问题,且每类下均包含从10%到90%九种不同训练进度的数据切片,为研究强化学习过程中模型能力的渐进变化提供了珍贵的量化依据。此外,每条数据不仅包含标准答案与解答过程,还设计了双维度奖励模型(结果正确性与风格评价),并收录了多个采样回复,可支撑对齐、奖励建模及生成质量分析等研究。
使用方法
使用该数据集时,推荐通过HuggingFace的datasets库进行加载,按需选择特定的config与split参数。研究者可根据训练阶段选择对应的子集,例如使用mixed.80或hard.80来评估后期模型表现,或用mixed.10和hard.10分析早期学习曲线。每条数据中的prompt字段可直接作为强化学习或监督微调的输入,reward_model字段可用于奖励函数设计或结果验证。对于需要多回复比较或生成多样性分析的任务,可直接提取responses列表进行后续处理。
背景与挑战
背景概述
在大型语言模型(LLM)的强化学习训练中,GRPO(Group Relative Policy Optimization)与DAPO(Dynamic Advantage Policy Optimization)等算法的结合为数学推理能力的提升提供了新路径。该数据集由研究团队基于Qwen3-4B-Base模型构建,旨在探索离线场景下强化学习算法在数学评估任务中的优化效果。数据集创建于近期,其核心研究问题在于如何通过细粒度分组与难度分层,有效增强模型对复杂数学问题的求解能力。数据集包含多个混合(mixed)与困难(hard)子集,覆盖从10%到90%的不同难度比例,为算法鲁棒性评估提供了丰富资源。该数据集填补了离线GRPO-DAPO联合训练在数学推理领域评估基准的空白,对推动强化学习在LLM数学能力优化中的应用具有重要价值。
当前挑战
数据集所解决的领域问题聚焦于数学推理中模型对难题的泛化能力不足,传统强化学习策略在复杂数学题上常因奖励稀疏而效果欠佳,而该数据集通过离线GRPO-DAPO框架探索了多难度混合训练的有效性。构建过程中的挑战体现在三个层面:首先,需要设计合理的难度划分机制,确保mixed与hard子集能真实反映问题复杂度梯度;其次,如何平衡不同难度样本的比例以防止训练失衡,数据集为此设置了从10%到90%的多种混合比;最后,生成高质量response与reward_model需要可靠的ground truth和风格一致性控制,这对数据标注与清洗流程提出了严苛要求,从而保证算法评估的公正性与可复现性。
常用场景
经典使用场景
在自然语言处理与强化学习交叉的前沿领域中,“grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval”数据集专为数学推理任务的强化学习训练而设计。该数据集以Qwen3-4B模型为基底,采用离线GRPO(Group Relative Policy Optimization)与DAPO(Dual-Agent Policy Optimization)双重优化策略,通过有序采样与多批次训练范式,构建了结构化的数学评估样本。其经典使用场景涵盖基于奖励模型的数学问题求解、策略梯度微调以及模型在混合难度与高难度题目上的泛化能力评测,特别适用于需要精确答案验证与风格化奖励信号的大规模语言模型强化学习实验。
衍生相关工作
基于该数据集衍生出的经典工作包括离线强化学习在数学推理领域的优化算法序列,如将GRPO与DAPO策略进行对比分析的研究,探索不同响应采样数量与批次大小对模型收敛速度的影响。部分工作进一步扩展了奖励模型架构,引入多粒度验证机制以提升答案正确性与逻辑连贯性的联合优化。还有研究者以此数据集为基准,开发了混合难度课程学习策略,通过调整简单与困难样本的比例来模拟人类解题能力递进式增长路径,这些成果共同丰富了数学强化学习的方法论体系。
数据集最近研究
最新研究方向
在数学推理与强化学习交叉领域,grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval数据集的出现标志着离线策略优化与长链推理对齐研究的深度融合。该数据集基于Qwen3-4B基座模型,采用GRPO与DAPO混合的离线训练范式,通过精心设计的多尺度难度混排(mixed/hard配比从10%到90%不等)构建了覆盖1447道混合题与100道高难度题的数学评估体系。其核心创新在于引入有序奖励模型(reward_model包含ground_truth与style双维度)以捕捉解答过程的逻辑严谨性与表达规范性,这恰好回应了当前大语言模型在数学竞赛级推理中存在的形式化验证薄弱问题。结合近年来DeepSeekMath等模型在数学推理自我奖励机制上的突破性进展,该数据集为探索离线GRPO策略下分布外泛化能力、以及通过多粒度难度控制实现能力阶梯式提升提供了关键基准。尤其值得注意的是,其'hard'分片仅占6.5%却承载了约43%的总数据量,这种极端稀疏的高质量数据配比策略,预示着未来数学推理数据集从粗放式规模扩张向精细化难度校准与针对性强化学习范式转型的重要趋势。
以上内容由遇见数据集搜集并总结生成



