grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/RyanYr/grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，包括数据来源（data_source）、问题（problem）、解决方案（solution）、答案（answer）、提示（prompt）、奖励模型（reward_model）和响应（responses）。提示字段是一个列表，包含角色（role）和内容（content）两个子字段。奖励模型字段包含真实值（ground_truth）和风格（style）两个子字段。数据集分为多个分片，包括混合难度（mixed）和高难度（hard）两类，每类又分为10%到90%的不同比例分片。每个分片都有指定的字节数（num_bytes）和样本数（num_examples）。数据集总下载大小为723349901字节，总数据集大小为732671236字节。

创建时间：

2026-04-23

原始信息汇总

根据您提供的数据集详情页面信息，以下是对该数据集的概述总结：

数据集名称

RyanYr/grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval

数据集简介

该数据集是一个用于数学评估（Math Eval）任务的离线强化学习（GRPO/DAPO）训练数据集，基于Qwen3-4B-Base模型生成，包含多组不同难度和混合比例的数据分片。

数据结构

每个样本包含以下字段：

data_source: 字符串，数据来源。
problem: 字符串，数学问题描述。
solution: 字符串，解答过程。
answer: 字符串，最终答案。
prompt: 列表，包含角色（role）和内容（content）的对话结构。
reward_model: 结构体，包含真实答案（ground_truth）和风格（style）字段。
responses: 字符串列表，模型生成的多个回答。

数据分片

数据集包含20个分片（split），分为两种难度类型和多个阈值：

难度类型	阈值	样本数	大小（字节）
mixed（混合）	.10	1,447	17,156,371
mixed	.20	1,447	35,273,635
mixed	.30	1,447	33,653,277
mixed	.40	1,447	31,632,888
mixed	.50	1,447	28,101,594
mixed	.60	1,447	26,358,700
mixed	.70	1,447	25,752,459
mixed	.80	1,447	27,114,119
mixed	.90	1,447	29,101,440
hard（困难）	.10	100	39,506,481
hard	.20	100	51,506,050
hard	.30	100	48,493,270
hard	.40	100	49,866,114
hard	.50	100	54,626,675
hard	.60	100	57,015,991
hard	.70	100	57,665,157
hard	.80	100	59,256,957
hard	.90	100	60,590,058

数据集规模

下载大小: 723,349,901 字节（约690 MB）
数据集总大小: 732,671,236 字节（约699 MB）

配置与文件

默认配置名：default
每个分片对应的数据文件路径为：data/{split名称}-*（例如 data/mixed.60-*）

关键特点

数据集专为数学推理离线强化学习场景设计。
包含混合难度（mixed）和纯困难（hard）两种类型，每种类型对应不同的阈值（.10 到 .90），便于分阶段训练或评估。
mixed分片各有1,447个样本，hard分片各有100个样本。
数据包含问题、解答、答案、对话提示、模型响应及奖励模型相关信息。

搜集汇总

数据集介绍

构建方式

该数据集源于对Qwen3-4B-Base模型在数学评估任务中实施GRPO与DAPO混合强化学习策略的离线训练过程。通过整合不同难度的数学问题，构建了混合（mixed）与困难（hard）两大类别，每个类别下依据训练步数或数据比例细分为从10%至90%不等的多个子集。每个样本均包含原始问题、标准解答、最终答案、格式化对话提示、奖励机制（包含标准答案与风格评估）以及模型生成的多个候选回复。这种分阶段、分层级的构建方式，旨在系统性地记录模型在不同训练阶段与不同难度任务上的表现数据。

特点

该数据集呈现出鲜明的多维结构与分层特性。所有样本均以json格式存储，支持灵活的数据加载与分布式处理。其核心特征在于同时覆盖混合难度与高难度两类数学问题，且每类下均包含从10%到90%九种不同训练进度的数据切片，为研究强化学习过程中模型能力的渐进变化提供了珍贵的量化依据。此外，每条数据不仅包含标准答案与解答过程，还设计了双维度奖励模型（结果正确性与风格评价），并收录了多个采样回复，可支撑对齐、奖励建模及生成质量分析等研究。

使用方法

使用该数据集时，推荐通过HuggingFace的datasets库进行加载，按需选择特定的config与split参数。研究者可根据训练阶段选择对应的子集，例如使用mixed.80或hard.80来评估后期模型表现，或用mixed.10和hard.10分析早期学习曲线。每条数据中的prompt字段可直接作为强化学习或监督微调的输入，reward_model字段可用于奖励函数设计或结果验证。对于需要多回复比较或生成多样性分析的任务，可直接提取responses列表进行后续处理。

背景与挑战

背景概述

在大型语言模型（LLM）的强化学习训练中，GRPO（Group Relative Policy Optimization）与DAPO（Dynamic Advantage Policy Optimization）等算法的结合为数学推理能力的提升提供了新路径。该数据集由研究团队基于Qwen3-4B-Base模型构建，旨在探索离线场景下强化学习算法在数学评估任务中的优化效果。数据集创建于近期，其核心研究问题在于如何通过细粒度分组与难度分层，有效增强模型对复杂数学问题的求解能力。数据集包含多个混合（mixed）与困难（hard）子集，覆盖从10%到90%的不同难度比例，为算法鲁棒性评估提供了丰富资源。该数据集填补了离线GRPO-DAPO联合训练在数学推理领域评估基准的空白，对推动强化学习在LLM数学能力优化中的应用具有重要价值。

当前挑战

数据集所解决的领域问题聚焦于数学推理中模型对难题的泛化能力不足，传统强化学习策略在复杂数学题上常因奖励稀疏而效果欠佳，而该数据集通过离线GRPO-DAPO框架探索了多难度混合训练的有效性。构建过程中的挑战体现在三个层面：首先，需要设计合理的难度划分机制，确保mixed与hard子集能真实反映问题复杂度梯度；其次，如何平衡不同难度样本的比例以防止训练失衡，数据集为此设置了从10%到90%的多种混合比；最后，生成高质量response与reward_model需要可靠的ground truth和风格一致性控制，这对数据标注与清洗流程提出了严苛要求，从而保证算法评估的公正性与可复现性。

常用场景

经典使用场景

在自然语言处理与强化学习交叉的前沿领域中，“grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval”数据集专为数学推理任务的强化学习训练而设计。该数据集以Qwen3-4B模型为基底，采用离线GRPO（Group Relative Policy Optimization）与DAPO（Dual-Agent Policy Optimization）双重优化策略，通过有序采样与多批次训练范式，构建了结构化的数学评估样本。其经典使用场景涵盖基于奖励模型的数学问题求解、策略梯度微调以及模型在混合难度与高难度题目上的泛化能力评测，特别适用于需要精确答案验证与风格化奖励信号的大规模语言模型强化学习实验。

衍生相关工作

基于该数据集衍生出的经典工作包括离线强化学习在数学推理领域的优化算法序列，如将GRPO与DAPO策略进行对比分析的研究，探索不同响应采样数量与批次大小对模型收敛速度的影响。部分工作进一步扩展了奖励模型架构，引入多粒度验证机制以提升答案正确性与逻辑连贯性的联合优化。还有研究者以此数据集为基准，开发了混合难度课程学习策略，通过调整简单与困难样本的比例来模拟人类解题能力递进式增长路径，这些成果共同丰富了数学强化学习的方法论体系。

数据集最近研究