grpo-dapo_shuffled-0_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/RyanYr/grpo-dapo_shuffled-0_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个结构化字段，包括数据来源（data_source）、问题（problem）、解决方案（solution）、答案（answer）、提示（prompt）、奖励模型（reward_model）和响应（responses）。其中，提示字段是一个列表，包含角色（role）和内容（content）两个子字段；奖励模型字段包含真实值（ground_truth）和风格（style）两个子字段。数据集分为多个子集，包括mixed和hard两类，每类又按百分比（从5%到100%）进一步细分。每个子集都有明确的字节大小和示例数量，例如mixed.95包含1447个示例，占用55266846字节；hard.95包含100个示例，占用96601289字节。总下载大小为1309658357字节，数据集总大小为1330334436字节。

创建时间：

2026-04-22

原始信息汇总

数据集概述

该数据集名为 RyanYr/grpo-dapo_shuffled-0_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval，是一个用于数学评估的离线强化学习数据集，包含训练过程中的模型响应及奖励模型信息。

数据集特征

数据集包含以下字段：

data_source：字符串类型，数据来源标识。
problem：字符串类型，数学问题描述。
solution：字符串类型，问题的求解过程。
answer：字符串类型，问题的最终答案。
prompt：包含两个子字段：
- role：字符串类型，提示的角色（如系统、用户等）。
- content：字符串类型，提示的具体内容。
reward_model：结构体类型，包含：
- ground_truth：字符串类型，真实答案或标准答案。
- style：字符串类型，奖励模型的风格或类型。
responses：字符串列表，模型生成的多个响应。

数据拆分

数据集包含多个拆分，每个拆分以 mixed. 或 hard. 开头，后跟一个百分比数字（如 mixed.95、hard.95）。所有拆分类型共有数十个，每个难度的拆分下包含不同数量的样本：

** mixed. 系列**：每个拆分包含 1447 个样本。
** hard. 系列**：每个拆分包含 100 个样本。
** mixed.100**：包含 1447 个样本。

具体拆分示例（部分）：

拆分名称	样本数	数据大小（字节）
mixed.95	1447	55,266,846
hard.95	100	96,601,289
mixed.90	1447	54,457,020
hard.90	100	91,117,582
mixed.85	1447	52,567,691
hard.85	100	85,054,155
...	...	...
mixed.5	1447	6,937,927
hard.5	100	15,085,655
mixed.100	1447	55,312,377

数据集总大小（包括所有拆分）为 1,330,334,436 字节（约1.33 GB），下载大小为 1,309,658,357 字节（约1.31 GB）。

配置文件

数据集仅包含一个默认配置 default，其对应的数据文件路径为 data/ 目录下的各个拆分文件，文件命名模式为 {split_name}-*。

适用场景

该数据集适用于以下任务：

数学推理与问题求解：训练模型对数学问题进行逐步求解并输出最终答案。
离线强化学习：基于奖励模型对模型生成的多个响应进行评分和优化。
模型评估：通过不同难度水平的拆分（mixed 和 hard）对模型性能进行多维度评估。

搜集汇总

数据集介绍

构建方式

该数据集源自对Qwen3-4B-Base模型进行GRPO与DAPO算法的离线强化学习训练过程，通过shuffle操作整合了不同策略下的数学推理轨迹。数据构建以数学评估任务为核心，每个样本包含题目原文、标准答案及求解过程，并经由奖励模型标注ground_truth与风格标签。数据集按难度梯度划分为'hard'与'mixed'两大类，辅以从5到95的阈值评分，形成了覆盖多级难度的子集，共包含38个数据分片，旨在为数学推理能力的系统评测提供精细化支撑。

特点

该数据集最显著的特点在于其层次化、多维度的难度划分体系。'mixed'与'hard'分组的并行设计，结合从5%到95%的评分阈值，使得研究者能够精准筛选适合特定模型能力的训练与评估样本。每个样本详细记录了角色-内容格式的提示词、多候选响应列表以及结构化奖励信息，为分析强化学习中策略网络的行为多样性提供了丰富视角。此外，统一的数据来源与标准化的字段结构，确保了在不同难度层级间进行公平对比的可行性。

使用方法

数据集通过HuggingFace Datasets库加载，在'splits'参数中指定所需阈值与难度类型的组合（如'mixed.95'或'hard.50'），即可获取对应子集。每个样本可直接访问'problem'字段获取数学问题，使用'responses'列表获得模型生成的多条候选答案，并借助'reward_model'字段中的ground_truth与style信息进行答案正确性与风格匹配度的评估。研究者亦可按需拼接多个分片（如不同阈值的混合子集）以构建连续难度分布的训练集或测试基准。

背景与挑战

背景概述

近年来，强化学习与生成式语言模型的结合成为提升模型数学推理能力的重要范式。GRPO（Group Relative Policy Optimization）与DAPO（Decoupled Alignment Policy Optimization）作为两种高效的对齐策略，在离线优化场景中展现出独特优势。在此背景下，grpo-dapo_shuffled-0_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_matheval数据集应运而生。该数据集由研发团队基于Qwen3-4B基座模型构建，聚焦数学评估任务，通过混洗离线数据与精细化的难度分层（从mixed到hard系列的多个阈值设置），旨在系统性地探索不同难度级别下模型推理能力的优化效果。其核心研究问题在于如何通过离线GRPO与DAPO混合策略，在有限采样步长（mbs128）和采样数量（n4）的约束下，有效提升数学问题求解的准确性与泛化性，为语言模型的数学推理对齐研究提供了标准化基准。

当前挑战

该数据集所面临的挑战主要体现为两大层面。在领域问题层面，数学推理任务要求模型精准理解符号逻辑、多重条件约束及复杂推导链条，现有的监督微调方法难以覆盖大规模、多样化的数学问题分布，且易在长尾难题上出现求解路径断裂，亟需通过强化学习对齐策略增强模型的逐步推理与自纠错能力。在构建过程层面，离线数据中混洗操作的引入虽能提升数据多样性，但也可能破坏样本原有的逻辑连贯性，导致模型在学习过程中产生噪声关联；同时，数据集按5%至95%的难度梯度细分多个混合与困难子集，如何确保各子集间难度定义的保序性与泛化边界清晰度，以及在高难度区间维持足够的训练信号密度，均构成了数据工程中的核心技术难点。

常用场景

经典使用场景

该数据集专为强化学习驱动的数学推理任务设计，其核心应用场景在于训练和评估大语言模型在数学问题求解中的推理能力。通过将数学问题拆解为prompt、多轮响应及奖励信号（包含ground truth与风格约束），研究者可系统性地开展基于GRPO或DAPO等算法的离线强化学习实验。数据结构中精心划分的mixed与hard子集，按难度梯度从5%至100%递进，为模型在不同推理复杂度下的表现提供了精细化的评估基准，尤其适用于探索模型在应对高难度数学题目时的涌现行为与泛化边界。

解决学术问题

数据集直面大语言模型在复杂数学推理中普遍存在的逻辑断裂与答案失真问题。通过引入细粒度的奖励模型（reward_model），将正确性（ground_truth）与风格规范（style）联合作为反馈信号，有效解决了传统强化学习策略中奖励稀疏与误导性反馈的困境。其难度分层设计（如mixed与hard子集）为研究模型推理能力的瓶颈突破提供了可控的变量空间，推动了从模式记忆到真正数学推理能力迁移的学术探讨，对理解强化学习如何塑造语言模型的链式思维过程具有深远意义。

衍生相关工作

该数据集衍生了一系列探索强化学习与语言模型结合的经典工作，例如基于GRPO算法的数学推理优化策略、DAPO框架下多偏好对齐的奖励塑形方法，以及利用难度分层数据进行课程学习（Curriculum Learning）的模型训练范式。在模型评估层面，它催生了评估数学推理鲁棒性的基准测试套件，并推动研究者将注意力机制分析与推理链可解释性相结合。此外，数据集对奖励模型中风格约束的设计，启发了后续关于语言模型输出规范性与创造性平衡的探讨，催生了如语言风格引导的强化微调等前沿课题。

以上内容由遇见数据集搜集并总结生成