DeepSeek-Distillation

github2025-03-12 更新2025-02-27 收录

下载链接：

https://github.com/hwei-hw/DeepSeek-Distillation

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了基于DepSeek-R1的公开可用蒸馏数据集，旨在为研究人员、学生和从业者提供探索和增强大型语言模型推理能力的数据资源。

This repository collects publicly available distillation datasets based on DepSeek-R1, aiming to provide researchers, students, and practitioners with data resources for exploring and enhancing the reasoning capabilities of large language models.

创建时间：

2025-02-24

原始信息汇总

DeepSeek-Distillation 数据集概述

数据集简介

此仓库收集了基于DepSeek-R1的公开可用的蒸馏数据集，旨在供研究人员、学生和实践者探索和增强大型语言模型的推理能力。

数据集分类

数据集根据领域分为以下几类：

数学领域

open-r1/OpenR1-Math-220k: 一个大规模数学推理数据集，包含220k个数学问题及由DeepSeek R1生成的两个至四个推理轨迹。
simplescaling/s1K-1.1: 包含与s1K相同的1000个问题，但提供了由DeepSeek r1生成的推理轨迹。
bespokelabs/Bespoke-Stratos-17k: 包含问题、推理轨迹和答案的推理数据集。
open-r1/OpenThoughts-114k-math: 一个聚焦于数学的大型数据集。

医学领域

hw-hwei/MedThoughts-8K: 一个聚焦于医学问答任务的推理数据集。
FreedomIntelligence/Medical-R1-Distill-Data: 从Deepseek-R1中蒸馏的SFT数据集，基于来自HuatuoGPT-o1的医疗验证问题。
FreedomIntelligence/Medical-R1-Distill-Data-Chinese: 上述数据集的中文版本。

通用领域

sequelbox/Raiden-DeepSeek-R1: 一个包含创新推理和分析推理响应的数据集，用于测试DeepSeek R1推理技能的极限。

混合领域

open-thoughts/OpenThoughts-114k: 一个合成推理数据集，包含114k高质量示例，涵盖数学、科学、代码和谜题。
Congliu/Chinese-DeepSeek-R1-Distill-data-110k: 中文开源蒸馏满血R1数据集，包括数学、考试、STEM和通用知识。
ServiceNow-AI/R1-Distill-SFT: 使用DeepSeek-R1-32b蒸馏的数据集。
PrimeIntellect/SYNTHETIC-1-SFT-Data: 从Deepseek-R1生成的推理数据集（894K），由众包计算产生并使用各种验证器进行注释。
Magpie-Align/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B: 使用Meta的Llama 3.1 70B Instruct、Llama 3.3 70B Instruct和deepseek-ai/DeepSeek-R1-Distill-Llama-70B通过Magpie框架生成的数据集。

其他数据集

以下推理数据集是从其他模型中蒸馏而来的：

facebook/natural_reasoning: 一个用于一般推理任务的大规模数据集。
FreedomIntelligence/medical-o1-reasoning-SFT: 从GPT-4o蒸馏的医疗推理数据集。
AI-MO/NuminaMath-CoT: 约860k个数学问题，每个解决方案都采用Chain of Thought (CoT)格式。
cognitivecomputations/dolphin-r1: 一个与用于训练DeepSeek-R1 Distill模型的组成相似的800k样本数据集。
GAIR/LIMO: 一个主要关注数学的推理数据集。
wangrongsheng/Kimi-K1.5-Distill-data: 从kimi-k1.5蒸馏的数学数据集（531）。

搜集汇总

数据集介绍

构建方式

DeepSeek-Distillation数据集是基于DepSeek-R1模型所蒸馏出的一系列子数据集，其构建过程涉及从原始DeepSeek-R1数据集中提炼出数学、医疗、通用领域及混合领域的问题及其推理轨迹，旨在为大型语言模型推理能力的探索与提升提供支持。

特点

该数据集的特点在于其涵盖多个领域，包括但不限于数学、医疗、科学、代码和谜题等，提供了丰富的问题及对应的推理轨迹。此外，数据集以合成推理数据的形式出现，包含了高质量的高难度推理示例，对于研究和评估模型在复杂推理任务上的性能具有重要意义。

使用方法

使用DeepSeek-Distillation数据集时，用户需先通过指定的链接访问各个子数据集页面，下载所需数据。之后，用户可以根据具体的研究需求，对数据集进行预处理和格式化，以便在模型训练、评估或推理任务中使用。数据集支持多种语言，包括中文，为不同语言背景的研究者提供了便利。

背景与挑战

背景概述

DeepSeek-Distillation数据集是一系列基于DepSeek-R1模型蒸馏得到的公开数据集，旨在为研究人员、学生和实践者提供探索和增强大型语言模型推理能力的资源。该数据集的创建，紧跟大型语言模型推理能力研究的步伐，由多个机构和研究人员共同贡献，涵盖了数学、医疗、通用领域和混合领域等多个方向，对推动相关领域的研究发挥了重要作用。

当前挑战

DeepSeek-Distillation数据集在构建和应用过程中面临的主要挑战包括：如何确保数学和医疗等专业领域问题的准确性和合理性；如何处理和优化数据集中由DeepSeek R1生成的推理痕迹，以提升模型性能；以及如何在混合领域中平衡不同类型问题的质量和数量，以满足多样化的研究需求。此外，数据集的质量控制和验证也是持续的挑战，需要不断更新和完善以保证其有效性和可靠性。

常用场景

经典使用场景

在深度学习领域，尤其是大型语言模型的研究与开发中，DeepSeek-Distillation数据集以其独特的蒸馏数据集特性，成为了一个经典的使用场景。该数据集基于DeepSeek-R1，提供了数学、医学、通用领域及混合领域的推理任务数据，可供研究人员、学生和实践者探索和提升大型语言模型的推理能力。

衍生相关工作

基于DeepSeek-Distillation数据集，学术界衍生出了一系列相关工作，如针对不同领域的推理任务优化、模型性能评估方法的研究等。这些工作不仅推动了数据集的进一步完善，也为大型语言模型在推理任务上的研究和应用提供了新的视角和方法论。

数据集最近研究