compare-offlinegrpo-runpod-payload-public

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/AlexWortega/compare-offlinegrpo-runpod-payload-public

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于比较6种离线强化学习/奖励微调（RL/RFT）蒸馏方法。主要数据内容包括：1) 训练提示（来自DeepScaleR的40K条数据）；2) 教师模型生成的rollout数据（每个提示生成K个补全）；3) 经过验证的rollout数据（包含奖励值和参考对数概率）；4) 方法特定的训练切片；5) 评估数据集（包括GSM8K、MATH-500、AMC23和AIME25）。使用的模型包括教师模型（deepseek/deepseek-v4-pro）和学生模型（liquid/lfm-2.5-1.2b-thinking:free）。该数据集适用于研究离线强化学习、奖励微调以及模型蒸馏方法。

创建时间：

2026-05-07

原始信息汇总

数据集概述

基本信息

数据集名称: compare-offline-grpo
数据集地址: https://huggingface.co/datasets/AlexWortega/compare-offlinegrpo-runpod-payload-public
语言: 俄语（README内容为俄语）

数据集内容

该数据集用于比较6种离线强化学习（RL）/拒绝微调（RFT）方法在推理蒸馏（distillation of reasoning）中的应用效果。

数据集目录结构

data/ prompts/ # 训练任务（DeepScaleR 40K） rollouts/raw/ # 每个提示的 K 个教师完成结果 rollouts/verified # 包含奖励和参考对数概率的结果 train/ # 方法特定的数据切片（单一来源） eval/ # GSM8K, MATH-500, AMC23, AIME25 评估数据集

使用的模型

教师模型: deepseek/deepseek-v4-pro（通过 OpenRouter 访问）
学生模型: liquid/lfm-2.5-1.2b-thinking:free（用于推理）/ 用于训练的 Hugging Face 对应模型

涉及的训练方法

该数据集对比了以下6种训练方法：

SFT - 监督微调
RFT - 拒绝微调
DFT - 蒸馏微调
RIFT - 强化与微调结合
离线 GRPO - 离线组相对策略优化
DPO - 直接偏好优化

评估基准

数据集中包含的评估集合：

GSM8K
MATH-500
AMC23
AIME25

快速开始流程

安装依赖并配置环境变量
下载评估集和训练提示
生成教师模型的展开结果（可设置限制数量和参数K）
验证展开结果
从原始展开结果中准备方法特定的数据视图
使用对应配置文件训练所选方法
评估训练完成的检查点

搜集汇总

数据集介绍

构建方式

本数据集专为离线强化学习与强化微调方法在推理蒸馏任务中的比较研究而设计。其构建流程始于通过OpenRouter调用deepseek-v4-pro教师模型，基于DeepScaleR的40K数学推理提示生成多轮轨迹（rollout），每个提示对应K个完整序列。随后利用数学验证器对轨迹进行奖励标注与参考对数概率的附加，形成经核验的基础数据池。最后根据六种不同算法（SFT、RFT、DFT、RIFT、离线GRPO及DPO）的需求，从该数据池中提取特定的训练视图，生成方法专用的子集。

特点

该数据集的核心特色在于其统一的原始数据源与多样化的方法适配性。所有训练数据均源自同一个高质量的教师模型输出，保障了比较实验的基准一致性。同时，数据集通过预处理脚本生成了面向SFT、RFT、DFT、RIFT、离线GRPO及DPO六种方法的专用切片，使得研究者能够在一个共享的验证框架下，公平评估不同离线RL/RFT策略对数学推理能力的蒸馏效果。此外，完整的数据处理管线从轨迹生成到验证、切分均被固化，增强了实验的可复现性。

使用方法

使用本数据集进行实验需遵循预设的模块化流程。首先需配置环境变量与依赖，并通过下载脚本获取评估集与训练提示。接着运行轨迹生成脚本，调用教师模型产生原始rollout数据，再经验证脚本过滤并附加奖励信息。核心步骤在于运行准备脚本，将核验后的数据转换为六种特定方法的训练格式。研究者随后可依据需求选择对应的YAML配置文件（如train_sft.yaml）启动训练，并利用pass@k评估脚本在GSM8K、MATH-500等基准上测试学生模型性能。

背景与挑战

背景概述

该数据集创建于2025年，由专注于大语言模型推理能力蒸馏的研究团队发布，旨在系统比较多种离线强化学习（RL）与奖励微调（RFT）方法对推理链蒸馏效果的影响。核心研究问题在于探索如何有效利用教师模型（如DeepSeek-v4-Pro）生成的多样化推理轨迹，通过不同训练范式（包括SFT、RFT、DFT、RIFT、离线GRPO及DPO）蒸馏至轻量级学生模型（如1.2B参数的LFM模型），以在保持推理能力的同时显著降低计算开销。该数据集涵盖了从数据生成、验证到特定方法切片准备的完整流程，为推理能力的轻量化迁移研究提供了标准化评估基准，在模型压缩与高效部署领域具有重要参考价值。

当前挑战

数据集所解决的核心领域问题在于推理能力的高效蒸馏：大型语言模型虽展现出卓越推理性能，但其高昂的推理成本限制了实际应用。如何从复杂推理轨迹中提取可泛化的轻量级推理策略，是当前该领域的主要挑战。在数据集构建过程中，面临多重困难：首先，教师模型的多样化rollouts需涵盖充足推理路径，但采样数量（K值）与计算资源之间需精细平衡；其次，reward信号的设计与验证机制的构建至关重要，需确保数学任务中奖励分配的准确性与一致性；最后，不同训练方法（如离线GRPO与DPO）对数据预处理的要求各异，构建统一且可扩展的数据处理流水线以支持公平比较，是系统工程层面的重大挑战。

常用场景

经典使用场景

该数据集专为离线强化学习与拒绝微调方法的系统比较而设计，聚焦于推理能力的蒸馏任务。经典的使用场景包括：给定一组教师模型生成的推理轨迹（rollouts），研究如何利用SFT、RFT、DFT、RIFT、离线GRPO以及DPO等六种不同算法，从这些静态数据中高效提取并迁移推理能力。研究者通过统一的数据流水线，将原始轨迹转化为各方法特定的训练视图，从而在公平可控的条件下评估每种方法的优劣。该数据集为离线RL/RFT领域的对比实验提供了标准化、可复现的基准平台。

实际应用

在实际应用层面，该数据集直接服务于大语言模型推理能力的轻量化部署需求。通过蒸馏强大教师模型的推理策略到小型学生模型（如1.2B参数级别），该方法可显著降低推理延迟与计算资源消耗，同时保持较高的数学推理准确率。具体场景包括：在资源受限的移动设备或边缘计算环境中部署智能数学辅导系统、自动化编程助手以及逻辑推理引擎。此外，该数据集的模块化设计允许工业界根据自身需求灵活选择最优的离线训练策略，快速迭代模型性能，降低从零训练大模型的高昂成本，具有鲜明的工程实用价值。

衍生相关工作

该数据集衍生了多项具有重要影响力的相关工作。其中最核心的是围绕六种离线训练方法的性能对比与机理分析，催生了一系列针对推理蒸馏中奖励噪声处理、拒绝采样策略优化以及策略梯度方差缩减的深入研究。例如，基于该数据集的研究工作进一步探索了离线GRPO中参考策略的重要性采样修正，以及RIFT方法中即时奖励融合机制的改进方案。此外，该基准平台启发研究者构建了多教师蒸馏框架，利用不同教师模型的知识互补性提升学生模型的推理鲁棒性。这些衍生工作不仅深化了对离线RL/RFT算法内在机理的理解，也为后续探索更高效的推理能力蒸馏范式奠定了坚实的实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集