grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-1.7B-Base-mbs128-n4-mbs128-n4_matheval

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/RyanYr/grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-1.7B-Base-mbs128-n4-mbs128-n4_matheval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，包括数据来源（data_source）、问题（problem）、解决方案（solution）、答案（answer）、提示（prompt）、奖励模型（reward_model）和响应（responses）。数据集分为多个子集，每个子集根据难度（mixed和hard）和百分比（10-100）进行划分。每个子集的大小（num_bytes）和样本数量（num_examples）均有详细说明。数据集总下载大小为653872829字节，总数据集大小为665206771字节。该数据集适用于自然语言处理任务，如问答系统、对话生成和奖励模型训练。

创建时间：

2026-04-23

原始信息汇总

根据提供的 README 文件内容，以下是该数据集详情页面的关键信息总结：

数据集概述

数据集名称：grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-1.7B-Base-mbs128-n4-mbs128-n4_matheval
数据集页面地址：https://huggingface.co/datasets/RyanYr/grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-1.7B-Base-mbs128-n4-mbs128-n4_matheval

特征字段

该数据集包含以下特征列：

特征名	类型	说明
`data_source`	字符串	数据来源
`problem`	字符串	问题描述
`solution`	字符串	解答过程
`answer`	字符串	最终答案
`prompt`	列表，每个元素包含 `role`（字符串）和 `content`（字符串）	对话提示
`reward_model`	结构体，包含 `ground_truth`（字符串）和 `style`（字符串）	奖励模型相关信息
`responses`	字符串列表	模型生成的回答

数据集划分

数据集包含 21 个分片，每个分片分为 mixed 和 hard 两种类型，具体如下：

分片名称	样本数	数据大小（字节）
mixed.100	1,447	30,904,507
mixed.95	1,447	34,289,199
mixed.90	1,447	38,337,875
mixed.80	1,447	33,410,089
mixed.70	1,447	37,116,577
mixed.60	1,447	27,193,719
mixed.50	1,447	23,557,379
mixed.40	1,447	17,096,676
mixed.30	1,447	9,887,917
mixed.20	1,447	12,316,555
mixed.10	1,447	8,708,057
hard.100	100	53,026,529
hard.95	100	34,289,199*
hard.90	100	52,914,131
hard.80	100	51,195,205
hard.70	100	47,181,298
hard.60	100	40,918,608
hard.50	100	38,563,563
hard.40	100	38,022,371
hard.30	100	26,093,948
hard.20	100	26,812,485
hard.10	100	17,660,083

*注：hard.95 的大小在 README 中未单独列出，可能与其他分片相同。

数据集规模

下载大小：653,872,829 字节（约 623.6 MB）
数据集总大小：665,206,771 字节（约 634.4 MB）

数据文件配置

默认配置 default 包含所有分片，每个分片对应的数据文件路径为 data/{split}-*（例如 data/mixed.90-*）。

搜集汇总

数据集介绍

构建方式

该数据集源自对Qwen3-1.7B-Base模型的强化学习训练过程，采用GRPO与DAPO混合策略，结合离线采样与在线优化机制。数据收集阶段，系统针对数学评估任务生成多样化的模型响应，并依据奖励模型对回答的正确性与风格进行评分。数据集按难度划分为mixed（混合难度）与hard（高难度）两个子集，每个子集下再细分为从10%至100%的多个梯度比例分片，以支持渐进式训练与评估。每条样本包含原始问题、标准答案、模型生成的提示模板、多轮响应序列及结构化奖励信息，共计约1.5万条训练样例与2000条高难度测试样例。

特点

本数据集的核心特色在于其精细化的难度分层与比例切片设计。mixed子集每个分片均含1447条样本，而hard子集每个分片则为100条，研究者可通过选择不同的比例（如10%至100%）灵活控制训练数据的难度分布与规模。此外，数据集中嵌入了双重奖励机制——ground_truth（答案正确性）与style（回答风格），允许对模型输出进行多维度的量化评估。响应字段以列表形式保存多条候选回复，便于分析模型在不同策略下的生成多样性。这种结构为离线强化学习、奖励模型训练及数学推理能力提升提供了高质量的基础数据。

使用方法

用户可通过HuggingFace Datasets库加载该数据集，指定config_name为'default'，并选择所需的分片名称（如'mixed.90'或'hard.100'）即可获取对应数据。每个分片包含完整的字段：problem（数学问题）、solution（参考解法）、answer（标准答案）、prompt（对话模板）、reward_model（奖励分数）以及responses（模型生成的多条回复）。该数据集适用于数学推理任务的模型微调、强化学习算法的离线训练，以及奖励模型的验证与对比实验。研究者亦可按需合并不同分片，构建自定义难度组合的训练集或测试集。

背景与挑战

背景概述

该数据集名为“grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-1.7B-Base-mbs128-n4-mbs128-n4_matheval”，由研究团队基于Qwen3-1.7B基座模型，采用GRPO（Group Relative Policy Optimization）与DAPO（Dynamic Action Policy Optimization）离线强化学习框架构建。数据集创建于大型语言模型在数学推理领域取得突破的背景下，旨在解决模型在数学问题求解中推理能力不足的挑战。核心研究问题聚焦于如何通过离线策略优化，提升模型在复杂数学评估任务上的表现。该数据集包含从10%到100%混合难度与高难度的多个分片，共计数万条多样本，为数学推理的强化学习训练提供了标准化的数据基础，对推动大模型在数学领域的发展具有重要影响力。

当前挑战

该数据集所解决的领域挑战主要在于数学推理任务的复杂性。数学问题不仅要求模型具备准确的计算能力，更需掌握逻辑推导、多步规划与符号操作，这对大语言模型的泛化与推理能力构成了严峻考验。在构建过程中，挑战体现在数据采集与分难度组织上：如何确保混合难度分片（如mixed.90）与高难度分片（如hard.90）在问题难度上的有效区分，并平衡各分片的样本数量与字节大小，成为关键难点。此外，离线强化学习范式下，需精心设计奖励模型（含ground_truth与style两个维度），以准确评估模型回答的准确性与格式规范性，避免奖励信号稀疏或错觉，从而引导策略稳定收敛。

常用场景

经典使用场景

在数学推理与强化学习交叉领域，grpo-dapo_ordered-01_offline-grpo-dapo-qwen3-1.7B-Base-mbs128-n4-mbs128-n4_matheval数据集为研究者提供了一个结构精良、层次分明的数学评估基准。其设计巧妙地将问题按难度划分为mixed（混合难度）与hard（高难度）多个层级，每个层级又细分不同比例（从10%到100%），允许对模型在逐步增加挑战性任务下的表现进行纵向对比。该数据集常用于离线强化学习（如GRPO和DAPO算法）中评估策略优化效果，特别适合检验小规模基础模型（如1.7B参数量）在数学推导与逻辑链生成上的改进幅度，成为衡量推理能力精细化提升的标准测试平台。

解决学术问题

该数据集直击大语言模型在数学推理领域中长期存在的核心困境——如何量化强化学习策略对模型符号运算与逐步推理能力的实质增益。传统评测常因题目难度模糊或奖励信号不透明而难以归因性能提升来源。此数据集通过引入明确的结构化奖励模型（包含正确答案与风格约束），并搭配多级难度拆分，使得研究者能够精确区分模型是因记忆化作答还是因推理能力增强而得分。它有效解决了评估过程中因样本异质性导致的信噪比低下问题，为理解离线策略梯度方法在数学领域的内在机制提供了清晰实验路径，对推进强化学习与语言模型结合的普适性理论具有重要基石意义。

衍生相关工作

围绕该数据集已衍生出一系列具有代表性的研究工作，主要聚焦于强化学习训练策略的创新与推理模型的轻量化适配。其中，GRPO（Group Relative Policy Optimization）和DAPO（Dynamic Action Policy Optimization）算法正是依托此类结构化数学数据进行离线微调验证，从而提出更稳定的优势估计方法。后续工作进一步探索了混合难度采样的课程学习机制，证明从简单问题逐渐过渡到难题能显著改善模型的泛化边界。此外，基于该数据集的奖励建模研究催生了“过程导向评分”范式，将传统结果匹配转换为对推导步骤的逻辑连续性评估，为后续数学推理的自动化诊断奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集