beyoru/deepseek-v4-pro-max-distillation-preview-shot

Name: beyoru/deepseek-v4-pro-max-distillation-preview-shot
Creator: beyoru
Published: 2026-04-25 11:17:53
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/beyoru/deepseek-v4-pro-max-distillation-preview-shot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由DeepSeek-V4-Pro（`reasoning_effort=max`，`thinking.enabled=true`）生成的推理痕迹和最终答案，使用的提示来自[`Jackrong/GLM-5.1-Reasoning-1M-Cleaned`](https://huggingface.co/datasets/Jackrong/GLM-5.1-Reasoning-1M-Cleaned)。目标是检查质量。数据集包含500个样本，提示来源为`Jackrong/GLM-5.1-Reasoning-1M-Cleaned`的`train`分割（前500行，流式传输）。教师模型为`deepseek-v4-pro`，推理努力为`max`，语言主要为英语，包含一些中文/多语言STEM内容，格式为JSON Lines（`output.jsonl`）。每个JSON对象包含`id`、`domain`、`prompt`、`reasoning`、`response`、`model`和`usage`等字段。

This dataset contains reasoning traces and final answers generated by DeepSeek-V4-Pro (`reasoning_effort=max`, `thinking.enabled=true`) using prompts sampled from [`Jackrong/GLM-5.1-Reasoning-1M-Cleaned`](https://huggingface.co/datasets/Jackrong/GLM-5.1-Reasoning-1M-Cleaned). The goal is to check quality. The dataset contains 500 samples, with prompts sourced from the `train` split of `Jackrong/GLM-5.1-Reasoning-1M-Cleaned` (first 500 rows, streaming). The teacher model is `deepseek-v4-pro`, reasoning effort is `max`, languages are primarily English with some Chinese/multilingual STEM content, and the format is JSON Lines (`output.jsonl`). Each JSON object includes fields such as `id`, `domain`, `prompt`, `reasoning`, `response`, `model`, and `usage`.

提供机构：

beyoru

搜集汇总

数据集介绍

构建方式

该数据集源自DeepSeek-V4-Pro模型在最大推理强度（reasoning_effort=max, thinking.enabled=true）下对Jackrong/GLM-5.1-Reasoning-1M-Cleaned数据集中的提示样本进行蒸馏生成，完整保留了模型的完整思维链（reasoning_content）与最终答案（content）。数据集共计1000条样本，以JSON Lines格式存储，每条记录包含唯一标识、领域来源、用户提示、推理过程、最终回答、模型标识及令牌使用统计等字段，构建成本仅约5.46美元。

使用方法

该数据集适用于对开源模型进行推理能力的蒸馏训练，使用者可将每条数据中的prompt字段作为输入，reasoning和response字段作为目标输出，训练学生模型模仿DeepSeek-V4-Pro的推理行为。数据以JSON Lines格式提供，可直接通过标准的数据加载工具读取，适合微调、监督学习或作为评估推理质量的基准集。使用时应留意数据集的Apache-2.0许可协议。

背景与挑战

背景概述

DeepSeek-V4-Pro-Max-Distillation-Preview-Shot数据集由研究人员于2026年4月构建，旨在探索大语言模型推理能力的蒸馏技术。该数据集以DeepSeek-V4-Pro为教师模型，通过设置最大推理努力度与启用完整思维链功能，从GLM-5.1-Reasoning-1M-Cleaned数据集中采样1000条提示，生成了包含完整推理轨迹与最终答案的高质量蒸馏样本。其核心研究问题在于验证仅千级规模的推理轨迹数据是否足以支撑学生模型复现教师模型的推理行为，从而突破当前主流商用API仅返回总结性思维链的瓶颈。这一工作为开源社区提供了可复现、低成本的知识蒸馏范式，对推动大模型推理能力的轻量化部署具有重要参考价值。

当前挑战

领域层面，当前主流大模型推理蒸馏面临两大困境：一是OpenAI、Anthropic等商业API出于安全或商业考量，隐藏原始思维链仅返回摘要信息，导致学生模型无法学习到真正的推理过程；二是即使能够获取完整思维链，标签质量与教师模型推理能力之间的非线性映射关系，使得小规模蒸馏数据的有效性难以保证。构建过程中，研究者需在极低成本（约5.46美元）与1000样本的小规模约束下，确保每个样本包含高置信度的完整推理轨迹；同时需严格筛选提示来源以覆盖数学、多语言STEM、PHD-Science等多样化学科领域，避免领域偏差导致蒸馏模型泛化能力不足。此外，从GLM-5.1数据集中采样时，如何平衡各子集样本比例以维持蒸馏数据的领域分布合理性，也是设计中的关键挑战。

常用场景

经典使用场景

在大型语言模型的研发进程中，该数据集作为知识蒸馏（Knowledge Distillation）任务的典范资源，其核心用途在于将DeepSeek-V4-Pro这类拥有完整思维链推理能力的教师模型，其内部的推理轨迹与最终答案全面暴露给学生模型进行学习。经典场景中，研究人员利用此数据集对学生模型进行监督训练，使其不仅模仿最终输出，更掌握生成中间推理步骤的能力，从而提升模型在复杂逻辑、数学推理与多步问题求解上的表现。该数据集仅含1000条精心选取的高质量样本，成本低廉且针对链式思维蒸馏优化，是探索小型模型从强推理模型中汲取推理精髓的理想起点。

解决学术问题

该数据集精准回应了学界长期面临的“推理透明性”与“知识迁移效率”两大核心困局。传统蒸馏实践中，OpenAI与Anthropic等顶级模型虽具备强大推理能力，却仅暴露总结性思考过程，隐藏完整链式思维，导致学生模型无法学习到推理的内部逻辑结构与决策路径。而该数据集通过暴露完整的reasoning_content，使得蒸馏训练具备可监督的推理信号，有效弥补了因教师模型不透明的推理摘要所带来的信息损失。它从根本上解决了弱模型学习强模型推理策略时监督信号缺失的问题，推动了高效小型推理模型的发展，对提升模型的逻辑一致性与可解释性具有深远意义。

实际应用

在实际应用层面，该数据集可被广泛部署于需要高推理能力但受限于计算资源的场景。例如，在移动设备、嵌入式系统或边缘计算环境中部署的轻量级语言模型，经过该数据集的蒸馏训练后，能够以更低的参数量与推理成本，实现对复杂数学题、编程逻辑、科学推理等内容的高效解答。此外，教育辅导类智能应用可借助蒸馏后的模型解析用户提问并展示逐步推理过程，从而提升用户体验与教学效果。在金融、医疗等高风险决策领域，具备完整推理路径的轻量模型同样能辅助专家进行决策分析，确保结果的可追溯性与可解释性。

数据集最近研究