中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本

Name: 中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本
Creator: maas
Published: 2026-06-06 20:41:30
License: 暂无描述

魔搭社区2026-06-06 更新2025-02-22 收录

下载链接：

https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

# 中文基于满血DeepSeek-R1蒸馏数据集（Chinese-Data-Distill-From-R1） <p align="center"> 🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a> </p> 注意：该版本为，可以直接SFT使用的版本，将[原始数据](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k)中的思考和答案整合成output字段，大部分SFT代码框架均可直接直接加载训练。本数据集为中文开源蒸馏满血R1的数据集，数据集中不仅包含math数据，还包括大量的通用类型数据，总数量为110K。为什么开源这个数据？ R1的效果十分强大，并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果，但检索发现，大部分开源的R1蒸馏数据集均为英文数据集。同时，R1的报告中展示，蒸馏模型中同时也使用了部分通用场景数据集。为了帮助大家更好地复现R1蒸馏模型的效果，特此开源中文数据集。该中文数据集中的数据分布如下： - Math：共计36568个样本， - Exam：共计2432个样本， - STEM：共计12648个样本， - General：共计58352，包含弱智吧、逻辑推理、小红书、知乎、Chat等。 ## 数据集蒸馏细节数据的prompt源来自： - [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math) - [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math) - [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh) - [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math) - [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) - [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2) - [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction) 同时为了方便大家溯源，在每条数据的repo_name字段中都加入的原始数据源repo。在蒸馏过程中，按照[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1)官方提供的细节，进行数据蒸馏。 - 不增加额外的系统提示词 - 设置temperature为0.6 - 如果为数学类型数据，则增加提示词，“请一步步推理，并把最终答案放到 \boxed{}。” - 防止跳出思维模式，强制在每个输出的开头增加"\n"，再开始生成数据由于个人资源有限，所有数据的蒸馏均调用[无问芯穹](https://cloud.infini-ai.com/genstudio?source=knlpdis)的企业版满血R1 API生成，在此由衷的感谢无问芯穹。任务期间，保持稳定地运行300并发，支持64k上下文，32k输出长度，持续运行近12个小时，性能始终保持一致，数据可用性100%。测试时首token延时基本在500ms以下，推理速度最快25 tokens/s（需根据实际运行任务进行测试实际稳定性指标比较合理）。 ## 数据打分细节数据生成结果进行了二次校验，并保留了评价分数。针对Math和Exam数据，先利用[Math-Verify](https://github.com/huggingface/Math-Verify)进行校对，无法规则抽取结果的数据，再利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型进行打分，正确为10分，错误为0分。针对其他数据，直接利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型从无害性、有用性、正确性/完整性三个角度进行打分，分值范围为0-10分。本数据集保留了最后打分结果，为后续的数据筛选提供帮助，但注意，所有打分均基于模型，因此评分可能并不准确，请斟酌使用。 ## 局限性由于数据是由蒸馏DeepSeek-R1生成的，未经严格验证，在事实性和其他方面还存在一些不足。因此，在使用此数据集时，请务必注意甄别。本数据集不代表任何一方的立场、利益或想法，无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷，本项目的开发者不承担任何责任。 ## 引用 ```text @misc{Chinese-Data-Distill-From-R1, author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang}, title = {The Chinese dataset distilled from DeepSeek-R1-671b}, year = {2025}, publisher = {HuggingFace}, howpublished = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, } ``` ## 联系作者 - 知乎：[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP) - 公众号：[NLP工作站](images/image.png)

# 基于满血DeepSeek-R1的中文蒸馏数据集（Chinese-Data-Distill-From-R1） <p align="center">🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a> </p> 注意：本版本为可直接用于监督微调（Supervised Fine-Tuning, SFT）的就绪版本：将[原始数据](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k)中的思考过程与答案整合为`output`字段，兼容绝大多数SFT训练代码框架的直接加载与训练。本数据集为开源的满血DeepSeek-R1中文蒸馏数据集，涵盖数学类数据与海量通用场景数据，总规模达110K样本。为何开源本数据集？ DeepSeek-R1模型性能优异，基于其蒸馏数据进行监督微调的小型模型亦展现出强劲的效果。经调研发现，当前绝大多数开源的R1蒸馏数据集均为英文版本；同时，DeepSeek-R1官方报告显示，其蒸馏过程亦使用了部分通用场景数据集。为助力研究者复现R1蒸馏模型的优异效果，我们特此开源本中文蒸馏数据集。本数据集的样本分布如下： - 数学（Math）类：共36568条样本 - 考试（Exam）类：共2432条样本 - STEM类：共12648条样本 - 通用（General）类：共58352条样本，涵盖弱智吧、逻辑推理、小红书、知乎、对话类等场景 ## 数据集蒸馏细节本数据集的Prompt来源如下： - [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math) - [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math) - [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh) - [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math) - [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) - [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2) - [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction) 为便于研究者溯源，每条样本的`repo_name`字段均标注了其原始数据源仓库名称。本次蒸馏严格遵循[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1)官方公布的蒸馏流程与参数设置： - 不添加额外系统提示词 - 温度系数（temperature）设置为0.6 - 针对数学类样本，追加提示词："请逐步推理，并将最终答案置于 oxed{} 中。" - 为避免生成脱离思维链，强制要求所有输出以换行符` `开头，再启动内容生成鉴于个人科研资源有限，本数据集的蒸馏生成全部依托[无问芯穹](https://cloud.infini-ai.com/genstudio?source=knlpdis)企业版满血DeepSeek-R1 API完成，在此向无问芯穹致以诚挚谢意。本次蒸馏任务稳定维持300并发请求，支持64k上下文窗口与32k输出长度，持续运行近12小时，全程性能一致，数据可用性达100%。经测试，首Token延迟基本低于500ms，最快推理速度可达25 tokens/s（实际稳定性指标需结合具体运行任务评估）。 ## 数据打分细节本数据集对所有生成样本进行了二次校验，并保留了对应的评价得分。针对数学与考试类样本，先通过[Math-Verify](https://github.com/huggingface/Math-Verify)工具进行自动校对；对于无法通过规则抽取结果的样本，则采用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型进行打分，正确样本得10分，错误样本得0分。针对其余类别样本，则直接采用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型，从无害性、有用性、正确性与完整性三个维度进行打分，分值区间为0~10分。本数据集保留了最终打分结果，可为后续样本筛选提供参考。需注意的是，所有评分均由模型生成，可能存在偏差，使用时请酌情甄别。 ## 局限性本数据集由DeepSeek-R1蒸馏生成，未经严格人工核验，在事实准确性等方面可能存在不足。使用本数据集时，请务必对生成内容进行甄别与校验。本数据集仅为科研工具，不代表任何个人或组织的立场、利益与观点，亦不代表任何团体的主张。因使用本数据集引发的任何损害、纠纷，本项目开发者不承担相关责任。 ## 引用 text @misc{Chinese-Data-Distill-From-R1, author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang}, title = {The Chinese dataset distilled from DeepSeek-R1-671b}, year = {2025}, publisher = {HuggingFace}, howpublished = {url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, } ## 联系作者 - 知乎：[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP) - 公众号：[NLP工作站](images/image.png)

提供机构：

maas

创建时间：

2025-02-17

搜集汇总

数据集介绍