RyanYr/pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/RyanYr/pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: data_source
dtype: string
- name: problem
dtype: string
- name: solution
dtype: string
- name: answer
dtype: string
- name: prompt
list:
- name: role
dtype: string
- name: content
dtype: string
- name: reward_model
struct:
- name: ground_truth
dtype: string
- name: style
dtype: string
- name: responses
list: string
splits:
- name: mixed.240
num_bytes: 8498472
num_examples: 1447
- name: hard.240
num_bytes: 13741662
num_examples: 100
- name: mixed.220
num_bytes: 8383975
num_examples: 1447
- name: hard.220
num_bytes: 14392128
num_examples: 100
- name: mixed.200
num_bytes: 7984490
num_examples: 1447
- name: hard.200
num_bytes: 14013427
num_examples: 100
- name: mixed.180
num_bytes: 7568474
num_examples: 1447
- name: hard.180
num_bytes: 13557115
num_examples: 100
- name: mixed.160
num_bytes: 7488347
num_examples: 1447
- name: hard.160
num_bytes: 13314153
num_examples: 100
- name: mixed.140
num_bytes: 7554580
num_examples: 1447
- name: hard.140
num_bytes: 12807633
num_examples: 100
- name: mixed.120
num_bytes: 7168097
num_examples: 1447
- name: hard.120
num_bytes: 12486358
num_examples: 100
- name: mixed.100
num_bytes: 7004172
num_examples: 1447
- name: hard.100
num_bytes: 14997901
num_examples: 100
- name: mixed.80
num_bytes: 6964991
num_examples: 1447
- name: hard.80
num_bytes: 14451219
num_examples: 100
- name: mixed.60
num_bytes: 7006232
num_examples: 1447
- name: hard.60
num_bytes: 14731492
num_examples: 100
- name: mixed.40
num_bytes: 6999988
num_examples: 1447
- name: hard.40
num_bytes: 14731492
num_examples: 100
- name: mixed.20
num_bytes: 6964991
num_examples: 1447
- name: hard.20
num_bytes: 14731492
num_examples: 100
download_size: 245086778
dataset_size: 257542881
configs:
- config_name: default
data_files:
- split: mixed.240
path: data/mixed.240-*
- split: hard.240
path: data/hard.240-*
- split: mixed.220
path: data/mixed.220-*
- split: hard.220
path: data/hard.220-*
- split: mixed.200
path: data/mixed.200-*
- split: hard.200
path: data/hard.200-*
- split: mixed.180
path: data/mixed.180-*
- split: hard.180
path: data/hard.180-*
- split: mixed.160
path: data/mixed.160-*
- split: hard.160
path: data/hard.160-*
- split: mixed.140
path: data/mixed.140-*
- split: hard.140
path: data/hard.140-*
- split: mixed.120
path: data/mixed.120-*
- split: hard.120
path: data/hard.120-*
- split: mixed.100
path: data/mixed.100-*
- split: hard.100
path: data/hard.100-*
- split: mixed.80
path: data/mixed.80-*
- split: hard.80
path: data/hard.80-*
- split: mixed.60
path: data/mixed.60-*
- split: hard.60
path: data/hard.60-*
- split: mixed.40
path: data/mixed.40-*
- split: hard.40
path: data/hard.40-*
- split: mixed.20
path: data/mixed.20-*
- split: hard.20
path: data/hard.20-*
---
提供机构:
RyanYr
搜集汇总
数据集介绍

构建方式
该数据集专为数学推理任务中的强化学习与偏好优化研究而构建。其构建过程基于DAPO(扩散式对齐偏好优化)框架,采用离线策略梯度方法,以Qwen3-4B-Base为基座模型,在数学评估场景下进行数据采样与交互。数据集中每条样本均包含原始问题、标准答案、模型生成的响应序列、以及由奖励模型提供的真实值与风格标签。通过分层次混合与难度分级策略,数据集被划分为多个子集:每个难度水平下均设有“mixed”(混合)与“hard”(困难)两种类别,分别容纳1447条与100条样本,共计24个切片,覆盖从20至240的不同训练步或配置阶段,确保了数据在覆盖广度与挑战深度上的平衡。
特点
该数据集最显著的特点在于其精细化的分层结构与丰富的难度梯度。数据依据训练轮次(如240、220……20)进行划分,构建出12个混合子集与12个困难子集,使得研究者能够系统性地评估模型在不同训练阶段的表现。此外,每条样本不仅包含完整的问题与标准解答,还保留了模型的多轮响应记录(responses字段),配合奖励模型提供的多样性风格标签(style)与真实答案(ground_truth),为分析模型在数学推理中的对齐行为、探索偏好多样性提供了结构化数据支持。这种多维度标注的设计使其特别适用于在线与离线策略优化方法的对比研究。
使用方法
使用者可通过HuggingFace Datasets库加载该数据集,依据config_name指定为'default'后,按需选择对应的split参数,例如'mixed.240'或'hard.60',以获得特定阶段与难度级别的数据切片。每条样本中的'prompt'字段以对话格式呈现,可直接输入至生成模型;'responses'字段为模型生成的候选回答列表,可用于计算奖励或构建偏好对。对于强化学习实验,可将'reward_model'中的'ground_truth'作为评估基准,结合'style'标签设计风格化的奖励函数。建议根据模型训练进度动态选择不同的难度切片进行迭代训练与测试,以系统观测数学推理能力的渐进变化。
背景与挑战
背景概述
在大语言模型与数学推理的交叉领域,如何高效利用离线强化学习(Offline RL)提升基座模型的复杂数学解题能力成为关键课题。pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval数据集由研究团队基于Qwen3-4B-Base模型构建,采用DAPO算法与离线策略梯度(Offline PG)范式,旨在探索基座模型在无在线交互条件下的数学评估(matheval)性能。该数据集创建于2025年左右,聚焦于核心研究问题:通过分阶段混合难度数据(mixed.240至mixed.20)与纯难题数据(hard.240至hard.20)的对比训练,验证离线强化学习在数学推理任务中的泛化边界。其影响力体现在为离线RL在数学领域的数据构建与训练范式提供了系统化基准,推动了大模型在受限数据场景下的推理能力研究。
当前挑战
该数据集面临的挑战涵盖领域问题与构建过程两大层面。在领域问题方面,数学推理任务要求模型不仅记忆公式,还需具备符号操作与多步逻辑推导能力,而离线RL中策略梯度依赖静态数据,难以像在线方法那样通过环境交互动态探索解题路径,导致模型在遇到新颖或复杂数学问题时易陷入局部最优。在构建过程中,数据集的难度分级(从混合到纯难题)设计需平衡样本多样性与推理深度,但部分split(如hard.20与hard.40)的字节数高度雷同,暗示可能存在数据冗余或采样偏差,影响训练效率。此外,reward_model中仅含ground_truth与style字段,缺乏过程级奖励信号,使得模型难以从错误推理步骤中学习,制约了强化学习对数学推导链的细粒度优化能力。
常用场景
经典使用场景
pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval 数据集专为强化学习与数学推理任务的交叉研究而设计,其经典用法在于利用离线策略梯度方法(如 DAPO)对 Qwen3-4B 基座模型进行数学问题求解能力的优化训练。数据集包含从简单到困难的多个难度级别(如 mixed.20 至 hard.240),每个样本均提供问题描述、标准答案、基于奖励模型的评估指标以及模型生成的多种响应候选,这使其成为验证离线偏好优化算法和探索评分函数设计对推理能力影响的关键基准。研究者常借助该数据集评估模型在算术、代数及几何等数学子领域的泛化表现,并对比不同训练策略下的收敛速度与最终性能。
解决学术问题
该数据集致力于解决大语言模型在数学推理领域中存在的稀疏奖励信号与泛化瓶颈等核心学术问题。通过提供结构化难度分级(如 hard 子集)和混合样本(mixed 子集),它助力研究者剖析模型在面对复杂数学问题时如何利用离线数据中的正负反馈信号进行策略优化。具体而言,数据集关注如何在不依赖在线交互的情况下,借助预先计算的奖励模型得分,改进模型对数学推导步骤的排序能力,从而缓解传统监督微调中因固定答案监督而忽视推理过程多样性的局限。其分级设计还支持对模型在不同认知负荷下的鲁棒性进行系统化评估,推动了离线强化学习在符号推理领域的方法论创新。
衍生相关工作
该数据集衍生出多项前沿工作,主要集中在利用离线偏好优化(如 DPO)、基于排名的策略梯度以及混合奖励建模等方向。研究者以该数据集为基础,提出了融合过程级奖励信号的改进型 DAPO 算法,并验证了在 hard 子集上通过动态样本重采样可显著提升策略的探索效率。后续工作还探索了将数据集中的 reward_model 得分与人类对齐技术结合,设计出兼顾正确性与连贯性的多目标优化损失函数。此外,该数据集被用于对比不同规模基座模型(如 1.5B 与 7B 版本)在离线强化学习框架下的可扩展性,从而为大规模数学推理模型的训练资源分配提供了实证参考。
以上内容由遇见数据集搜集并总结生成



