RyanYr/pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval

Name: RyanYr/pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval
Creator: RyanYr
Published: 2026-05-01 16:49:16
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/RyanYr/pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: data_source dtype: string - name: problem dtype: string - name: solution dtype: string - name: answer dtype: string - name: prompt list: - name: role dtype: string - name: content dtype: string - name: reward_model struct: - name: ground_truth dtype: string - name: style dtype: string - name: responses list: string splits: - name: mixed.240 num_bytes: 8498472 num_examples: 1447 - name: hard.240 num_bytes: 13741662 num_examples: 100 - name: mixed.220 num_bytes: 8383975 num_examples: 1447 - name: hard.220 num_bytes: 14392128 num_examples: 100 - name: mixed.200 num_bytes: 7984490 num_examples: 1447 - name: hard.200 num_bytes: 14013427 num_examples: 100 - name: mixed.180 num_bytes: 7568474 num_examples: 1447 - name: hard.180 num_bytes: 13557115 num_examples: 100 - name: mixed.160 num_bytes: 7488347 num_examples: 1447 - name: hard.160 num_bytes: 13314153 num_examples: 100 - name: mixed.140 num_bytes: 7554580 num_examples: 1447 - name: hard.140 num_bytes: 12807633 num_examples: 100 - name: mixed.120 num_bytes: 7168097 num_examples: 1447 - name: hard.120 num_bytes: 12486358 num_examples: 100 - name: mixed.100 num_bytes: 7004172 num_examples: 1447 - name: hard.100 num_bytes: 14997901 num_examples: 100 - name: mixed.80 num_bytes: 6964991 num_examples: 1447 - name: hard.80 num_bytes: 14451219 num_examples: 100 - name: mixed.60 num_bytes: 7006232 num_examples: 1447 - name: hard.60 num_bytes: 14731492 num_examples: 100 - name: mixed.40 num_bytes: 6999988 num_examples: 1447 - name: hard.40 num_bytes: 14731492 num_examples: 100 - name: mixed.20 num_bytes: 6964991 num_examples: 1447 - name: hard.20 num_bytes: 14731492 num_examples: 100 download_size: 245086778 dataset_size: 257542881 configs: - config_name: default data_files: - split: mixed.240 path: data/mixed.240-* - split: hard.240 path: data/hard.240-* - split: mixed.220 path: data/mixed.220-* - split: hard.220 path: data/hard.220-* - split: mixed.200 path: data/mixed.200-* - split: hard.200 path: data/hard.200-* - split: mixed.180 path: data/mixed.180-* - split: hard.180 path: data/hard.180-* - split: mixed.160 path: data/mixed.160-* - split: hard.160 path: data/hard.160-* - split: mixed.140 path: data/mixed.140-* - split: hard.140 path: data/hard.140-* - split: mixed.120 path: data/mixed.120-* - split: hard.120 path: data/hard.120-* - split: mixed.100 path: data/mixed.100-* - split: hard.100 path: data/hard.100-* - split: mixed.80 path: data/mixed.80-* - split: hard.80 path: data/hard.80-* - split: mixed.60 path: data/mixed.60-* - split: hard.60 path: data/hard.60-* - split: mixed.40 path: data/mixed.40-* - split: hard.40 path: data/hard.40-* - split: mixed.20 path: data/mixed.20-* - split: hard.20 path: data/hard.20-* ---

提供机构：

RyanYr

搜集汇总

数据集介绍

构建方式

该数据集专为数学推理任务中的强化学习与偏好优化研究而构建。其构建过程基于DAPO（扩散式对齐偏好优化）框架，采用离线策略梯度方法，以Qwen3-4B-Base为基座模型，在数学评估场景下进行数据采样与交互。数据集中每条样本均包含原始问题、标准答案、模型生成的响应序列、以及由奖励模型提供的真实值与风格标签。通过分层次混合与难度分级策略，数据集被划分为多个子集：每个难度水平下均设有“mixed”（混合）与“hard”（困难）两种类别，分别容纳1447条与100条样本，共计24个切片，覆盖从20至240的不同训练步或配置阶段，确保了数据在覆盖广度与挑战深度上的平衡。

特点

该数据集最显著的特点在于其精细化的分层结构与丰富的难度梯度。数据依据训练轮次（如240、220……20）进行划分，构建出12个混合子集与12个困难子集，使得研究者能够系统性地评估模型在不同训练阶段的表现。此外，每条样本不仅包含完整的问题与标准解答，还保留了模型的多轮响应记录（responses字段），配合奖励模型提供的多样性风格标签（style）与真实答案（ground_truth），为分析模型在数学推理中的对齐行为、探索偏好多样性提供了结构化数据支持。这种多维度标注的设计使其特别适用于在线与离线策略优化方法的对比研究。

使用方法

使用者可通过HuggingFace Datasets库加载该数据集，依据config_name指定为'default'后，按需选择对应的split参数，例如'mixed.240'或'hard.60'，以获得特定阶段与难度级别的数据切片。每条样本中的'prompt'字段以对话格式呈现，可直接输入至生成模型；'responses'字段为模型生成的候选回答列表，可用于计算奖励或构建偏好对。对于强化学习实验，可将'reward_model'中的'ground_truth'作为评估基准，结合'style'标签设计风格化的奖励函数。建议根据模型训练进度动态选择不同的难度切片进行迭代训练与测试，以系统观测数学推理能力的渐进变化。

背景与挑战

背景概述

在大语言模型与数学推理的交叉领域，如何高效利用离线强化学习（Offline RL）提升基座模型的复杂数学解题能力成为关键课题。pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval数据集由研究团队基于Qwen3-4B-Base模型构建，采用DAPO算法与离线策略梯度（Offline PG）范式，旨在探索基座模型在无在线交互条件下的数学评估（matheval）性能。该数据集创建于2025年左右，聚焦于核心研究问题：通过分阶段混合难度数据（mixed.240至mixed.20）与纯难题数据（hard.240至hard.20）的对比训练，验证离线强化学习在数学推理任务中的泛化边界。其影响力体现在为离线RL在数学领域的数据构建与训练范式提供了系统化基准，推动了大模型在受限数据场景下的推理能力研究。

当前挑战

该数据集面临的挑战涵盖领域问题与构建过程两大层面。在领域问题方面，数学推理任务要求模型不仅记忆公式，还需具备符号操作与多步逻辑推导能力，而离线RL中策略梯度依赖静态数据，难以像在线方法那样通过环境交互动态探索解题路径，导致模型在遇到新颖或复杂数学问题时易陷入局部最优。在构建过程中，数据集的难度分级（从混合到纯难题）设计需平衡样本多样性与推理深度，但部分split（如hard.20与hard.40）的字节数高度雷同，暗示可能存在数据冗余或采样偏差，影响训练效率。此外，reward_model中仅含ground_truth与style字段，缺乏过程级奖励信号，使得模型难以从错误推理步骤中学习，制约了强化学习对数学推导链的细粒度优化能力。

常用场景

经典使用场景

pg_sais-dapo_shuffled-offline-pg-dapo-qwen3-4B-Base-mbs128-n4_matheval 数据集专为强化学习与数学推理任务的交叉研究而设计，其经典用法在于利用离线策略梯度方法（如 DAPO）对 Qwen3-4B 基座模型进行数学问题求解能力的优化训练。数据集包含从简单到困难的多个难度级别（如 mixed.20 至 hard.240），每个样本均提供问题描述、标准答案、基于奖励模型的评估指标以及模型生成的多种响应候选，这使其成为验证离线偏好优化算法和探索评分函数设计对推理能力影响的关键基准。研究者常借助该数据集评估模型在算术、代数及几何等数学子领域的泛化表现，并对比不同训练策略下的收敛速度与最终性能。

解决学术问题

该数据集致力于解决大语言模型在数学推理领域中存在的稀疏奖励信号与泛化瓶颈等核心学术问题。通过提供结构化难度分级（如 hard 子集）和混合样本（mixed 子集），它助力研究者剖析模型在面对复杂数学问题时如何利用离线数据中的正负反馈信号进行策略优化。具体而言，数据集关注如何在不依赖在线交互的情况下，借助预先计算的奖励模型得分，改进模型对数学推导步骤的排序能力，从而缓解传统监督微调中因固定答案监督而忽视推理过程多样性的局限。其分级设计还支持对模型在不同认知负荷下的鲁棒性进行系统化评估，推动了离线强化学习在符号推理领域的方法论创新。

衍生相关工作

该数据集衍生出多项前沿工作，主要集中在利用离线偏好优化（如 DPO）、基于排名的策略梯度以及混合奖励建模等方向。研究者以该数据集为基础，提出了融合过程级奖励信号的改进型 DAPO 算法，并验证了在 hard 子集上通过动态样本重采样可显著提升策略的探索效率。后续工作还探索了将数据集中的 reward_model 得分与人类对齐技术结合，设计出兼顾正确性与连贯性的多目标优化损失函数。此外，该数据集被用于对比不同规模基座模型（如 1.5B 与 7B 版本）在离线强化学习框架下的可扩展性，从而为大规模数学推理模型的训练资源分配提供了实证参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集