DeepScaleR-Preview-Dataset_DeepSeek-R1-Distill-Qwen-32B_reasoning_traces

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/sam-12labs/DeepScaleR-Preview-Dataset_DeepSeek-R1-Distill-Qwen-32B_reasoning_traces

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、答案、解决方案以及模型推理相关的字段，如DeepSeek-R1-Distill-Qwen-32B模型的相关输出和正确性标志。数据集分为训练集，其中包含14200个示例，总字节数为1,627,141,732字节。数据集提供了默认配置，指定了训练数据的路径。

创建时间：

2025-05-04

原始信息汇总

DeepScaleR-Preview-Dataset_DeepSeek-R1-Distill-Qwen-32B_reasoning_traces 数据集概述

数据集基本信息

数据集名称: DeepScaleR-Preview-Dataset_DeepSeek-R1-Distill-Qwen-32B_reasoning_traces
下载大小: 620729242 字节
数据集大小: 1627141732 字节
训练集样本数: 14200 个

数据集特征

problem: 字符串类型，表示问题描述
answer: 字符串类型，表示答案
solution: 字符串类型，表示解决方案
DeepSeek-R1-Distill-Qwen-32B_reasoning: 字符串序列，表示推理过程
DeepSeek-R1-Distill-Qwen-32B_answer: 字符串序列，表示模型生成的答案
DeepSeek-R1-Distill-Qwen-32B_correct: 布尔值序列，表示答案是否正确
DeepSeek-R1-Distill-Qwen-32B_token_count: 整型序列，表示token计数

数据集结构

唯一拆分: train
- 路径: data/train-*
- 字节数: 1627141732 字节
- 样本数: 14200 个

搜集汇总

数据集介绍

构建方式

在人工智能推理领域，DeepScaleR-Preview-Dataset的构建采用了知识蒸馏技术，通过将Qwen-32B大型语言模型的推理能力迁移至DeepSeek-R1模型。数据集包含14,200个训练样本，每个样本由原始问题、标准答案及详细解题步骤组成，并记录了蒸馏模型的多步推理轨迹、生成答案、正确性判断及token消耗量。这种构建方式既保留了原始大模型的复杂推理能力，又为研究模型推理过程提供了结构化数据支持。

特点

该数据集最显著的特征在于完整记录了知识蒸馏过程中模型的多步推理轨迹，包括中间推理步骤、最终答案生成及正确性验证。每个样本包含原始问题与标准答案的对照，以及蒸馏模型输出的序列化推理过程，配合token计数可实现推理效率的量化分析。数据结构的层次化设计使得研究者能够从问题理解、推理逻辑到答案生成进行端到端的分析，为模型推理机制研究提供了多维度的观察窗口。

使用方法

使用该数据集时，研究者可通过分析模型推理轨迹与标准答案的对应关系，评估知识蒸馏效果。数据集支持多种研究场景：通过对比原始问题与模型输出可分析推理准确性；序列化推理步骤可用于构建推理路径可视化工具；token计数数据则为计算效率优化提供基准。建议采用分批次加载策略处理大规模数据，并利用序列字段进行多步推理的时序分析，充分发挥数据集的立体化研究价值。

背景与挑战

背景概述

DeepScaleR-Preview-Dataset_DeepSeek-R1-Distill-Qwen-32B_reasoning_traces数据集是近年来人工智能领域针对大语言模型推理能力评估的重要资源，由DeepSeek团队主导构建。该数据集聚焦于复杂推理任务的轨迹分析，旨在通过记录模型在问题求解过程中的思维链（Chain-of-Thought）数据，为模型推理能力的可解释性研究提供实证基础。其核心价值在于通过14200条包含问题、标准答案、解决方案及模型推理轨迹的完整记录，为分析Qwen-32B等大模型的逻辑推理缺陷与知识蒸馏效果建立了量化基准。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，如何准确定义和捕捉大语言模型的多步推理能力仍存在方法论争议，特别是对于涉及数学推导或常识推理的复杂任务，现有评估指标难以全面反映模型真实性能；在构建过程中，需要解决数据标注一致性问题，包括对模型生成的推理轨迹进行标准化分段，以及确保人工标注的解决方案与自动生成的推理步骤之间的逻辑对齐。此外，处理不同token长度的推理轨迹时保持序列标注的准确性，也是工程实现中的重要难点。

常用场景

经典使用场景

在人工智能推理能力研究领域，DeepScaleR-Preview-Dataset通过记录大型语言模型（如DeepSeek-R1-Distill-Qwen-32B）的完整推理轨迹，为分析模型思维过程提供了宝贵资源。该数据集特别适用于研究多步推理任务的分解逻辑，其中包含的问题解答对和分步解决方案，能够清晰展现模型从问题理解到最终答案生成的完整认知链条。

解决学术问题

该数据集有效解决了复杂推理任务的可解释性研究难题。通过对比标准答案与模型生成答案的差异，研究者能够精确识别模型在逻辑推理、知识应用等关键环节的薄弱点。特别在评估蒸馏模型性能时，其详尽的推理轨迹记录为分析知识蒸馏过程中的信息损失提供了量化依据，推动了可解释AI领域的理论发展。

衍生相关工作

基于该数据集衍生的研究显著推进了推理模型的优化方向。多项工作利用其构建了推理能力评估基准，如推理步骤完整性分析框架。在模型蒸馏领域，研究者通过分析轨迹数据提出了改进的知识保留方法。近期发表的Chain-of-Thought增强技术，其验证实验也大量采用了该数据集提供的推理轨迹对比分析。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集