opd-kd-thinky-deepmath-completions

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/kashif/opd-kd-thinky-deepmath-completions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含在使用`train_rl`进行强化学习训练期间生成的策略内数据。数据集采用OPD算法，学生模型为HuggingFaceH4/KD-Thinky，教师模型为Qwen/Qwen3-8B，提示数据集为HuggingFaceH4/DeepMath-103K。每个parquet文件对应一个rollout步骤，包含以下列：步骤索引（step）、输入提示文本（prompt）、模型生成的完成文本（completion）、奖励（reward）、计算优势（advantage，GRPO为标量，OPD为每令牌）和响应长度（response_length）。数据集适用于强化学习训练和分析任务。

This dataset contains on-policy data generated during reinforcement learning training using `train_rl`. It employs the OPD algorithm, featuring the student model HuggingFaceH4/KD-Thinky, teacher model Qwen/Qwen3-8B, and prompt dataset HuggingFaceH4/DeepMath-103K. Each Parquet file corresponds to one rollout step, and includes the following columns: step index (step), input prompt text (prompt), model-generated completion text (completion), reward (reward), computed advantage (advantage: scalar for GRPO, per-token for OPD), and response length (response_length). This dataset is suitable for reinforcement learning training and analysis tasks.

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在强化学习模型训练领域，数据集的构建往往依赖于特定算法与策略的交互过程。本数据集通过在线策略生成技术，在RL训练过程中实时采集模型输出，其核心构建方法基于OPD算法，以HuggingFaceH4/KD-Thinky作为学生模型，Qwen/Qwen3-8B作为教师模型进行知识蒸馏。训练采用DeepMath-103K作为提示数据集，设置组大小为4，最大生成长度为4096个标记，温度参数为1.0，学习率固定为0.0001，同时配置了Lora秩为128及KL系数为1.0，确保生成过程的多样性与稳定性。每个数据文件对应一个滚动步骤，完整记录了模型在训练中的动态响应轨迹。

特点

该数据集展现了强化学习训练中模型生成行为的细粒度特征，其结构设计充分体现了在线策略数据的典型属性。数据集以Parquet格式存储，每个文件包含步骤索引、提示文本、模型补全内容、奖励值、优势函数及响应长度等多维字段，优势函数根据算法差异呈现标量或逐标记的向量形式。数据覆盖了从初始步骤到模型修订版本v00.08-step-000003125的完整训练历程，不仅提供了模型输出的文本序列，还包含了强化学习中的关键反馈信号，为分析模型在数学推理任务上的行为演变提供了丰富的时间序列信息。

使用方法

为便于研究人员高效利用该数据集，官方提供了两种主流的数据加载方式。用户可通过HuggingFace的datasets库直接调用load_dataset函数，指定数据集路径即可获取结构化数据集对象。此外，亦可借助Polars库的read_parquet功能，从云端存储直接读取所有Parquet文件，实现快速的数据框转换与处理。这两种方法均支持对步骤、奖励、补全内容等字段的灵活访问，适用于后续的模型行为分析、训练轨迹可视化或强化学习算法比较等研究场景，为深入探索在线策略生成机制提供了便捷的数据接口。

背景与挑战

背景概述

在强化学习与知识蒸馏交叉融合的前沿领域，opd-kd-thinky-deepmath-completions数据集应运而生，它记录了基于On-Policy Distillation（OPD）算法训练过程中的生成日志。该数据集由Kashif等研究人员构建，依托HuggingFace社区的开源生态，旨在探究大型语言模型在数学推理任务上的高效微调机制。其核心研究问题聚焦于如何通过师生模型架构（以Qwen/Qwen3-8B为教师模型，HuggingFaceH4/KD-Thinky为学生模型）与策略优化相结合，提升模型在复杂逻辑推理中的泛化能力与样本效率。这一工作不仅推动了指令微调与强化学习方法的深度融合，也为数学问题求解等专业领域的模型优化提供了宝贵的实证数据。

当前挑战

该数据集致力于应对数学推理任务中模型泛化与稳定性优化的核心挑战。具体而言，在领域问题层面，如何确保模型在生成长篇数学证明或推导时保持逻辑连贯性与符号准确性，同时避免奖励黑客行为，是强化学习范式中亟待解决的难题。在构建过程中，研究人员面临多维度挑战：其一，需平衡知识蒸馏的保真度与策略探索的多样性，以协调教师模型指导与学生模型自主优化之间的张力；其二，处理DeepMath-103K提示数据集所涵盖的多样化数学问题格式与复杂度，要求生成过程具备高度的自适应能力；其三，在长达4096个标记的生成序列中维持奖励信号与优势估计的精确性，对算法设计与工程实现提出了严峻考验。

常用场景

经典使用场景

在强化学习与知识蒸馏的交叉领域，该数据集作为OPD算法训练过程中的在线生成日志，为研究者提供了模型在DeepMath数学推理任务上的动态行为记录。它典型地用于分析模型在训练迭代中的生成轨迹，评估策略优化与知识传递的协同效应，尤其在多步推理与复杂问题求解场景中，为算法调优与性能诊断提供了实证基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在强化学习对齐与高效训练框架的探索上，例如基于优势分解的序列级策略优化研究，以及跨模态知识迁移的实证分析。这些工作进一步拓展了OPD算法在数学推理、代码合成等专业领域的应用边界，并催生了针对生成质量与训练效率平衡的新型评估指标与基准测试。

数据集最近研究