RyanYr/grpo-dapo-qwen3-4B-Base-mbs128-n4_matheval
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/RyanYr/grpo-dapo-qwen3-4B-Base-mbs128-n4_matheval
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: data_source
dtype: string
- name: problem
dtype: string
- name: solution
dtype: string
- name: answer
dtype: string
- name: prompt
list:
- name: role
dtype: string
- name: content
dtype: string
- name: reward_model
struct:
- name: ground_truth
dtype: string
- name: style
dtype: string
- name: responses
list: string
splits:
- name: mixed.100
num_bytes: 9587238
num_examples: 1447
- name: hard.100
num_bytes: 25880047
num_examples: 100
- name: mixed.90
num_bytes: 9523158
num_examples: 1447
- name: hard.90
num_bytes: 25720154
num_examples: 100
- name: mixed.80
num_bytes: 9621431
num_examples: 1447
- name: hard.80
num_bytes: 26562604
num_examples: 100
- name: mixed.70
num_bytes: 9609942
num_examples: 1447
- name: hard.70
num_bytes: 27527459
num_examples: 100
- name: mixed.60
num_bytes: 9954871
num_examples: 1447
- name: hard.60
num_bytes: 28185982
num_examples: 100
- name: mixed.50
num_bytes: 10176726
num_examples: 1447
- name: hard.50
num_bytes: 28876688
num_examples: 100
- name: mixed.40
num_bytes: 10672459
num_examples: 1447
- name: hard.40
num_bytes: 30162417
num_examples: 100
- name: mixed.30
num_bytes: 10616632
num_examples: 1447
- name: hard.30
num_bytes: 29788662
num_examples: 100
- name: mixed.20
num_bytes: 5822333
num_examples: 1447
- name: hard.20
num_bytes: 13049532
num_examples: 100
- name: mixed.10
num_bytes: 6083271
num_examples: 1447
- name: hard.10
num_bytes: 9584261
num_examples: 100
download_size: 326673516
dataset_size: 337005867
configs:
- config_name: default
data_files:
- split: mixed.100
path: data/mixed.100-*
- split: hard.100
path: data/hard.100-*
- split: mixed.90
path: data/mixed.90-*
- split: hard.90
path: data/hard.90-*
- split: mixed.80
path: data/mixed.80-*
- split: hard.80
path: data/hard.80-*
- split: mixed.70
path: data/mixed.70-*
- split: hard.70
path: data/hard.70-*
- split: mixed.60
path: data/mixed.60-*
- split: hard.60
path: data/hard.60-*
- split: mixed.50
path: data/mixed.50-*
- split: hard.50
path: data/hard.50-*
- split: mixed.40
path: data/mixed.40-*
- split: hard.40
path: data/hard.40-*
- split: mixed.30
path: data/mixed.30-*
- split: hard.30
path: data/hard.30-*
- split: mixed.20
path: data/mixed.20-*
- split: hard.20
path: data/hard.20-*
- split: mixed.10
path: data/mixed.10-*
- split: hard.10
path: data/hard.10-*
---
提供机构:
RyanYr
搜集汇总
数据集介绍

构建方式
该数据集源自GRPO与DAPO强化学习框架在Qwen3-4B-Base模型上的训练产出,专注于数学推理任务的评估与优化。数据以问题(problem)、解答(solution)、答案(answer)及对话提示(prompt)为核心字段,同时包含奖励模型所需的标准答案(ground_truth)与风格标签(style)作为评估依据。构建过程中,数据被划分为混合难度(mixed)与高难度(hard)两种类型,每种类型下从100%到10%按十个百分点递减生成多个分片,每个分片承载1447条混合样本与100条困难样本,形成了层次化的难度递进结构,便于模型在不同难度阈值下的性能分析。
特点
数据集最显著的特点在于其双维度分层设计:一方面通过混合样本与困难样本的区分覆盖从常规到高难的推理场景,另一方面在十个递进度上分别保留完整数据,支持模型在不同训练阶段或截断比例下的泛化能力测试。每条数据均包含完整的推理链路——从原始问题到标准答案再至模型生成的多条候选响应(responses),为对比学习与奖励信号建模提供了丰富的素材。奖励模型字段内嵌真值答案与风格约束,使得该数据集不仅可用于数学推理能力的评估,还能辅助研究模型输出的规范性与一致性。
使用方法
用户可通过HuggingFace Datasets库加载该数据集的指定配置,默认配置下按难度(mixed/hard)与保留比例(10%至100%)选择对应分片。例如,使用`load_dataset`并指定`split='mixed.100'`可获取全部混合样本用于完整训练或测试;若需探索模型在极端困难数据上的表现,可切换至`hard.20`等稀疏分片。数据以标准化字段格式存储,便于直接整合到强化学习流水线中:`prompt`字段可构建对话输入,`responses`字段提供对比策略的候选输出,而`reward_model`字段则用于计算奖励信号以迭代优化模型策略。
背景与挑战
背景概述
该数据集名为grpo-dapo-qwen3-4B-Base-mbs128-n4_matheval,源自对Qwen3-4B-Base模型在数学推理任务上的强化学习优化研究,核心聚焦于Group Relative Policy Optimization与Dynamic Action Policy Optimization算法的结合应用。数据集由相关研究团队构建,旨在评估强化学习策略对基础模型数学问题求解能力的提升效果,涵盖从简单到复杂的多层次数学问题。其影响力体现在为数学推理领域的强化学习训练提供了标准化评测基准,推动了语言模型在形式化推理任务中的性能边界探索。
当前挑战
数据集面临的核心挑战在于数学推理问题的多样性与复杂性,包括几何、代数、数论等多个子领域的覆盖,以及从基础运算到高阶证明的难度分层。构建过程中,如何确保问题与解答的格式一致性、奖励模型的判断准确性成为关键难点。此外,多轮强化学习采样(n4)下的奖励稀疏性问题与局部最优陷阱,以及模型对不同难度(mixed/hard)问题的泛化鲁棒性,是该数据集在评测与训练中需要持续攻克的挑战。
常用场景
经典使用场景
该数据集专为强化学习与过程奖励模型训练而设计,其经典使用场景聚焦于数学推理任务的逐步优化。数据集包含问题、标准答案、模型生成的响应以及基于真值答案与风格约束的奖励信号,这使得它成为训练策略梯度类算法(如GRPO、DPO、PPO)的理想数据源。研究者可利用其中不同难度等级(mixed与hard)和不同采样比例(10%至100%)的子集,系统性地探究训练数据质量与数量对数学推理能力泛化的影响,从而推动语言模型在符号计算与逻辑推导任务上的表现提升。
解决学术问题
该数据集有效回应了如何在大语言模型中融入可验证的数学推理能力这一关键学术命题。传统监督微调方法难以捕捉数学问题解决中的多步推理链与确定性答案之间的细微关联,而该数据集通过提供结构化的奖励模型字段,支持过程导向的强化学习范式,使模型能够在探索多样化解题路径时学会自我校验与纠错。其重要意义在于为数学推理领域提供了开放的基准训练资源,促使研究者关注奖励塑形与探索效率的平衡,从而推进了具备严谨符号操作能力的智能系统的理论发展。
衍生相关工作
该数据集直接沿袭并推动了GRPO(Group Relative Policy Optimization)与DPO(Direct Preference Optimization)等离线强化学习算法在数学推理领域的应用工作。受其启发,研究者已开发出融合过程监督与结果监督的混合奖励建模策略,相关衍生工作包括在MATH、GSM8K等基准上的改进方法对比,以及针对训练数据采样效率与难度自适应策略的实证研究。此外,其含style奖励字段的设计,催生了在数学推理约束下进行风格可控生成的探索,为后续多任务推理框架的构建提供了可复现的对照实验范式。
以上内容由遇见数据集搜集并总结生成



