grpo-dapo_shuffled-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_mmlupro
收藏Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/RyanYr/grpo-dapo_shuffled-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_mmlupro
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个测试集分割(test.30至test.100),每个分割包含12032个样本。数据集总大小约为4.48GB,下载大小为4.47GB。主要特征包括:prompt(包含role和content字段)、data_source、reward_model(包含ground_truth和style字段)以及responses(字符串列表)。数据集适用于自然语言处理任务,如对话生成、奖励模型训练等,但具体背景和应用场景需进一步确认。
创建时间:
2026-04-26
原始信息汇总
根据您提供的数据集详情页面README文件内容,以下是对该数据集的总结:
数据集概述
该数据集名为 grpo-dapro_shuffled-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_mmlupro,托管于 Hugging Face。
数据特征
数据集包含以下字段:
- prompt: 对话提示,包含
role(角色)和content(内容)两个子字段,均为字符串类型。 - data_source: 数据来源,字符串类型。
- reward_model: 奖励模型,包含
ground_truth(真实答案)和style(风格)两个子字段,均为字符串类型。 - responses: 模型生成的回答列表,为字符串列表。
数据集划分
该数据集共包含15个测试集(split),每个测试集名称格式为 test.{数字},每个测试集均有 12032 个样本。具体划分及大小如下:
| 拆分名称 | 样本数 | 字节数 |
|---|---|---|
| test.100 | 12032 | 231,708,805 |
| test.95 | 12032 | 243,968,820 |
| test.90 | 12032 | 217,943,308 |
| test.85 | 12032 | 215,808,086 |
| test.80 | 12032 | 237,950,071 |
| test.75 | 12032 | 209,965,318 |
| test.70 | 12032 | 197,447,481 |
| test.65 | 12032 | 192,311,519 |
| test.60 | 12032 | 192,452,857 |
| test.55 | 12032 | 304,770,263 |
| test.50 | 12032 | 451,768,262 |
| test.45 | 12032 | 482,249,139 |
| test.40 | 12032 | 484,943,518 |
| test.35 | 12032 | 457,892,092 |
| test.30 | 12032 | 356,593,794 |
数据集大小
- 下载大小: 4,473,521,395 字节
- 数据集总大小: 4,477,773,333 字节
配置文件
该数据集仅提供一个配置(config),名称为 default,对应上述15个测试集划分,数据文件路径为 data/test.{数字}-* 格式。
搜集汇总
数据集介绍

构建方式
该数据集名为grpo-dapo_shuffled-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_mmlupro,是在大型语言模型强化学习微调场景下构建的离线训练数据。其构建基于GRPO(Group Relative Policy Optimization)与DAPO(Dynamic Advantage Policy Optimization)算法,以Qwen3-4B-Base为基座模型,在MMLU-Pro评测基准上生成响应。数据通过模型推理产生多轮回复,并引入shuffled-01策略进行样本混淆与筛选,形成包含prompt、reward_model及responses字段的结构化记录。数据集包含15个测试切分(test.30至test.100),每个切分包含12032个样本,整体数据量约4.47GB,旨在支持离线强化学习训练中的策略优化与奖励建模。
特点
该数据集的核心特点在于其细粒度、多层次的性能评估结构。通过将数据划分为从test.30到test.100共15个不同难度的测试切分,能够全面刻画模型在不同性能阈值下的表现。每个样本包含标准化的对话式prompt(含role与content字段)及对应标准答案ground_truth,同时记录模型生成的多条候选响应(responses),并辅以style字段描述响应风格。这种设计不仅支持传统的监督微调,更便于实现基于奖励模型的离线强化学习训练,如GRPO和DAPO,从而在强化学习阶段精确地调整策略。此外,数据集源自MMLU-Pro这一大规模多任务语言理解基准,保证了任务覆盖的广泛性与挑战性。
使用方法
该数据集适用于离线强化学习场景下的语言模型训练与评估。用户可通过HuggingFace Datasets库加载数据,指定相应配置及切分名称(如'test.50')获取子集。每个样本的prompt字段可作为模型输入,responses字段包含用于策略优化的候选输出,reward_model中的ground_truth则用于计算奖励信号。在训练流程中,可结合GRPO或DAPO算法,利用批量大小(mbs128)和组数(n4)等超参数进行策略更新。建议将数据按难度切分依次引入训练循环,以逐步提升模型在复杂推理任务上的泛化能力。由于每个切分样本量均为12032,便于实现稳定的批次采样与梯度计算。
背景与挑战
背景概述
该数据集名为grpo-dapo_shuffled-01_offline-grpo-dapo-qwen3-4B-Base-mbs128-n4-mbs128-n4_mmlupro,由Qwen团队基于Qwen3-4B-Base模型构建,专注于强化学习与策略优化算法在语言模型训练中的应用。数据集创建于2025年,旨在通过离线GRPO(Group Relative Policy Optimization)与DAPO(Dual-Agent Policy Optimization)方法的结合,探索在MMLU-Pro等大规模知识推理任务上的模型对齐技术。其核心研究问题在于如何利用混合策略优化方法,在离线场景下提升模型对复杂、多领域问题的应答质量与推理一致性。该数据集通过模拟多种难度分档(如test.30至test.100),为研究知识密集型任务中的奖励模型构建与策略梯度优化提供了标准化基准,对强化学习驱动的语言模型微调领域具有重要推动力。
当前挑战
该数据集主要应对两大挑战。首先,在领域问题层面,MMLU-Pro等知识推理任务要求模型具备跨学科的精准理解与逻辑推理能力,现有模型常因过度依赖表面模式而导致泛化不足,亟需通过强化学习框架实现稳健的奖惩权衡。其次,在数据构建过程中,离线环境下的策略优化面临采样偏差与奖励稀疏性难题:如何从有限数据中有效筛选高信息量样本(如test分档的差异化设计),并确保离线策略在分布外仍能保持收敛稳定性,是技术实现的关键瓶颈。此外,多模型交互的DAPO机制需应对同步训练中的信噪比控制与计算效率折中,进一步提升了数据集的构建复杂度。
常用场景
经典使用场景
在大规模语言模型(LLM)强化学习对齐的学术探索中,GRPO(Group Relative Policy Optimization)与DAPO(Decoupled Alignment via Policy Optimization)作为前沿的训练策略,其性能验证高度依赖于包含多样化微调中间状态的评估数据。该数据集精心收集了Qwen3-4B-Base模型在GRPO+DAPO混合训练过程中,不同阶段(从30%到100%训练进度)生成的推理样本与对应的奖励信号,形成了覆盖从弱到强对齐水平的连续演化轨迹。研究者可直接利用其中的prompt与response对,结合reword_model提供的ground_truth与style标签,系统性地分析模型在MMLU-Pro等复杂任务上的能力提升规律,为理解强化学习训练动态提供标准化测试基准。
解决学术问题
该数据集有效解决了当前LLM强化学习研究中一个关键难题:缺乏统一、细粒度的训练过程评估资源。过往工作往往仅提供最终模型快照,难以追溯模型的渐进式改进路径。通过按50%训练进度为节点划分多个测试子集(test.30至test.100),它使得学者能够首次以实证方式探究不同强度GRPO+DAPO策略对模型推理准确率、输出风格一致性及奖励函数泛化性的影响。这不仅为优化多阶段对齐算法提供了可靠的数据支撑,更推动了系统化理论框架的建立,揭示了奖励代理学习与策略更新之间的协同机制,对构建道德、忠实且自洽的AI系统具有深远学术意义。
衍生相关工作
围绕该数据集的动态评估特性,学术界已催生出若干衍生性研究脉络。一方面,研究者基于其连续分片数据,提出了“走得太远(Overtraining)”现象的检测指标,推动了Early Stopping策略在LLM对齐中的复兴与改进。另一方面,数据集中的reward_model架构(含ground_truth与style)启发了多目标奖励分解技术,相关论文通过对比各分片下不同奖励信号的贡献度,设计出可解释性更强的混合奖励函数。此外,部分工作专注于利用该数据训练轻量级代理模型,实现对教师策略(如DAPO)的隐性蒸馏,从而在保持性能的前提下压缩模型规模,这些成果均直接受益于数据集提供的丰富训练中间态样本。
以上内容由遇见数据集搜集并总结生成



