R1-Distill-Qwen-1.5B-deepmath-level5-6-max-length-16384-rollout-8-temperature-0.5-rollouts

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/aochongoliverli/R1-Distill-Qwen-1.5B-deepmath-level5-6-max-length-16384-rollout-8-temperature-0.5-rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含索引、问题、响应、奖励和全局步数的训练数据集，适用于机器学习模型的训练。数据集被划分为训练集，共包含19200个示例，文件大小为3171.75MB。提供了默认配置，其中包含了训练集的数据文件路径。

创建时间：

2025-06-22

原始信息汇总

数据集概述

基本信息

数据集名称: R1-Distill-Qwen-1.5B-deepmath-level5-6-max-length-16384-rollout-8-temperature-0.5-rollouts
下载大小: 1120243027 bytes
数据集大小: 3171749592 bytes
训练集样本数: 19200

数据集结构

特征

index: int64类型，表示样本索引
question: string类型，表示问题文本
response: string序列，表示回答文本
reward: float64序列，表示奖励值
global_step: int64序列，表示全局步骤

数据划分

train: 训练集，包含19200个样本

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在数学推理领域，高质量数据集的构建对模型性能提升至关重要。该数据集采用深度蒸馏技术，基于Qwen-1.5B模型在deepmath level5-6难度级别的数学问题上生成响应，通过设置16384的最大序列长度和8次rollout采样，配合0.5的温度参数进行知识蒸馏，最终形成包含19200个样本的训练集。这种构建方式有效保留了原始模型的数学推理能力，同时提升了数据的多样性。

特点

作为专注于高级数学推理的专用数据集，其显著特征体现在多维度评估体系上。每个样本不仅包含原始数学问题及其响应，还附带有奖励分数和全局步数序列，这种设计为研究模型在不同训练阶段的性能演变提供了完整轨迹。数据覆盖deepmath中高难度层级（5-6级），序列长度扩展至16384，能够支持复杂数学问题的长程推理需求。

使用方法

该数据集主要服务于数学推理模型的精调与研究。使用者可通过加载标准格式的训练文件，获取问题-响应对及其对应的奖励信号。建议结合强化学习框架，利用内置的奖励分数进行策略优化。对于长文本数学问题，应注意模型的最大长度限制，必要时可截断或分块处理。数据集中的全局步数信息可用于分析模型训练过程中的能力变化规律。

背景与挑战

背景概述

R1-Distill-Qwen-1.5B-deepmath-level5-6-max-length-16384-rollout-8-temperature-0.5-rollouts数据集是近年来自然语言处理领域针对数学问题求解任务而构建的高质量数据集。该数据集由前沿研究团队开发，旨在通过强化学习与知识蒸馏技术提升大规模语言模型在复杂数学推理任务中的表现。数据集构建的核心研究问题聚焦于如何将专家模型的数学推理能力有效迁移至轻量级学生模型，同时保持较高的泛化性能。该数据集的推出为数学自动推理、教育技术等领域的模型优化提供了重要基准，推动了知识蒸馏技术在专业领域应用的边界扩展。

当前挑战

该数据集面临的主要挑战体现在两个维度：领域问题层面，数学推理任务本身具有严格的逻辑性和多步推导特性，要求模型不仅需要掌握基础数学知识，还需具备符号运算和抽象推理能力，这对知识蒸馏的完整性提出了极高要求。数据构建过程中，如何平衡专家模型与学生模型之间的能力差距、设计有效的奖励函数以引导强化学习过程、以及处理长序列数学推导中的注意力机制优化，都是需要攻克的技术难点。此外，在16384的最大序列长度限制下保持生成结果的连贯性和准确性，进一步增加了数据质量控制的复杂度。

常用场景

经典使用场景

在数学推理与自动定理证明领域，R1-Distill-Qwen-1.5B-deepmath-level5-6数据集通过其包含的高阶数学问题与对应解答序列，为大型语言模型的强化学习训练提供了标准化的评估环境。该数据集特别适用于研究模型在复杂数学推导中的多步推理能力，其长达16384字符的上下文窗口设计，使得模型能够处理深层次的数学逻辑链条。

衍生相关工作

基于该数据集衍生的研究已催生多项突破性工作，包括《深度数学推理中的分层奖励 shaping 方法》等顶会论文。其数据构造方法论被迁移应用于物理定理证明数据集构建，相关技术路线更启发了后续MathQA-Plus等复合型评估基准的创建，推动了整个自动推理领域的评估体系革新。

数据集最近研究