中文基于满血DeepSeek-R1蒸馏数据集-110k
收藏魔搭社区2026-06-06 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k
下载链接
链接失效反馈官方服务:
资源简介:
# 中文基于满血DeepSeek-R1蒸馏数据集(Chinese-Data-Distill-From-R1)
<p align="center">
🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>   |   🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a>    |   🚀 <a href="https://github.com/YunwenTechnology/Chinese-Data-Distill-From-R1">Github</a>    |   📑 <a href="https://zhuanlan.zhihu.com/p/24430839729">Blog</a>
</p>
注意:提供了直接SFT使用的版本,[点击下载](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。将数据中的思考和答案整合成output字段,大部分SFT代码框架均可直接直接加载训练。
本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。
为什么开源这个数据?
R1的效果十分强大,并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果,但检索发现,大部分开源的R1蒸馏数据集均为英文数据集。 同时,R1的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集。
为了帮助大家更好地复现R1蒸馏模型的效果,特此开源中文数据集。
该中文数据集中的数据分布如下:
- Math:共计36568个样本,
- Exam:共计2432个样本,
- STEM:共计12648个样本,
- General:共计58352,包含弱智吧、逻辑推理、小红书、知乎、Chat等。
字段说明:
- input: 输入
- reasoning_content: 思考
- content: 输出
- repo_name: 数据源
- score: 模型打分结果
## 数据集蒸馏细节
数据的prompt源来自:
- [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math)
- [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math)
- [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh)
- [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math)
- [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA)
- [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2)
- [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction)
同时为了方便大家溯源,在每条数据的repo_name字段中都加入的原始数据源repo。
在蒸馏过程中,按照[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1)官方提供的细节,进行数据蒸馏。
- 不增加额外的系统提示词
- 设置temperature为0.6
- 如果为数学类型数据,则增加提示词,“请一步步推理,并把最终答案放到 \boxed{}。”
- 防止跳出思维模式,强制在每个输出的开头增加"\n",再开始生成数据
由于个人资源有限,所有数据的蒸馏均调用[无问芯穹](https://cloud.infini-ai.com/genstudio?source=knlpdis)的企业版满血R1 API生成,在此由衷的感谢无问芯穹。
任务期间,保持稳定地运行300并发,支持64k上下文,32k输出长度,持续运行近12个小时,性能始终保持一致,数据可用性100%。测试时首token延时基本在500ms以下,推理速度最快25 tokens/s(需根据实际运行任务进行测试实际稳定性指标比较合理)。
## 数据打分细节
数据生成结果进行了二次校验,并保留了评价分数。
针对Math和Exam数据,先利用[Math-Verify](https://github.com/huggingface/Math-Verify)进行校对,无法规则抽取结果的数据,再利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型进行打分,正确为10分,错误为0分。
针对其他数据,直接利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型从无害性、有用性、正确性/完整性三个角度进行打分,分值范围为0-10分。
本数据集保留了最后打分结果,为后续的数据筛选提供帮助,但注意,所有打分均基于模型,因此评分可能并不准确,请斟酌使用。
数据的二次校验,使用8张A100 GPU 部署多节点Qwen72B模型进行推理打分,耗时接近24H,感谢我司云问科技提供的服务器支持。
## 局限性
由于数据是由蒸馏DeepSeek-R1生成的,未经严格验证,在事实性和其他方面还存在一些不足。因此,在使用此数据集时,请务必注意甄别。
本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷,本项目的开发者不承担任何责任。
## 引用
```text
@misc{Chinese-Data-Distill-From-R1,
author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang},
title = {The Chinese dataset distilled from DeepSeek-R1-671b},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}},
}
```
## 联系作者
- email: cliu@iyunwen.com
- 知乎:[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP)
- 公众号:[NLP工作站](images/image.png)
# 基于满血DeepSeek-R1蒸馏的中文数据集(Chinese-Data-Distill-From-R1)
<p align="center">
🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>   |   🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a>    |   🚀 <a href="https://github.com/YunwenTechnology/Chinese-Data-Distill-From-R1">GitHub</a>    |   📑 <a href="https://zhuanlan.zhihu.com/p/24430839729">博客</a>
</p>
注意:本数据集提供了可直接用于监督微调(Supervised Fine-Tuning, SFT)的版本,[点击下载](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。将数据中的思考过程与最终答案整合为output字段后,绝大多数SFT代码框架均可直接加载并用于训练。
本数据集为开源的基于满血DeepSeek-R1蒸馏的中文数据集,不仅包含数学类样本,还涵盖大量通用场景数据,总规模达110K。
为何开源本数据集?
DeepSeek-R1模型效果卓越,基于其蒸馏数据进行监督微调(SFT)的小型模型同样表现出色。但经检索发现,当前绝大多数开源的R1蒸馏数据集均为英文数据集。此外,R1官方报告显示,其蒸馏模型的训练同时使用了部分通用场景数据集。为助力研究者复现R1蒸馏模型的效果,我们特此开源本中文数据集。
本数据集的样本分布如下:
- 数学(Math):共计36568条样本
- 考试(Exam):共计2432条样本
- 工程技术科学(STEM):共计12648条样本
- 通用(General):共计58352条样本,涵盖弱智吧、逻辑推理、小红书、知乎、闲聊等场景
字段说明:
- input:输入文本
- reasoning_content:思考过程
- content:最终输出
- repo_name:原始数据源
- score:模型评分结果
## 数据集蒸馏流程细节
本次数据集的提示词(Prompt)来源如下:
- [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math)
- [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math)
- [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh)
- [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math)
- [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA)
- [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2)
- [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction)
同时为便于使用者溯源,每条数据的repo_name字段均标注了其原始数据源仓库。
本次数据蒸馏严格遵循DeepSeek-R1官方公布的流程细节执行,具体规则如下:
- 未添加任何额外系统提示词
- 温度系数(temperature)设置为0.6
- 针对数学类样本,追加提示词:"请逐步推理,并将最终答案置于 oxed{} 中。"
- 为避免脱离思维生成模式,强制在每段输出的开头添加换行符"
"后再启动内容生成
因个人算力资源有限,本次所有数据蒸馏均通过调用无问芯穹企业版满血R1应用程序接口(API)完成,在此向无问芯穹致以诚挚谢意。
任务执行期间,稳定维持300并发请求,支持64k上下文窗口与32k输出长度,连续运行近12小时,性能始终保持一致,数据可用性达100%。测试结果显示,首Token(Token)延时基本低于500ms,最高推理速度可达25 tokens/s(实际稳定性指标需结合具体运行任务评估)。
## 数据评分细则
所有数据生成结果均经过二次校验,并保留了对应的评分结果。
针对数学(Math)与考试(Exam)类样本,先通过Math-Verify工具进行校验;对于无法通过规则抽取结果的样本,再使用Qwen2.5-72B-Instruct模型进行评分,正确样本得10分,错误样本得0分。
针对其余类别样本,则直接通过Qwen2.5-72B-Instruct模型从无害性、有用性、正确性与完整性三个维度进行评分,分值区间为0至10分。
本数据集保留了最终评分结果,可为后续数据筛选提供参考,但需注意:所有评分均由模型生成,可能存在偏差,请使用者谨慎选用。
本次数据二次校验通过部署8张A100 GPU的多节点集群运行Qwen72B模型完成评分推理,耗时近24小时,在此感谢云问科技提供的服务器支持。
## 数据集局限性
本数据集由DeepSeek-R1蒸馏生成,未经过严格的人工验证,在事实准确性等方面仍存在一定不足。因此,在使用本数据集时,请务必仔细甄别内容。
本数据集不代表任何机构或个人的立场、利益与观点,亦不代表任何团体的任何主张。因使用本数据集引发的任何损害、纠纷,本项目开发者不承担任何法律责任。
## 引用格式
text
@misc{Chinese-Data-Distill-From-R1,
author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang},
title = "The Chinese dataset distilled from DeepSeek-R1-671b",
year = {2025},
publisher = {HuggingFace},
howpublished = {url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}},
}
## 作者联系方式
- 邮箱:cliu@iyunwen.com
- 知乎账号:[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP)
- 微信公众号:[NLP工作站](images/image.png)
提供机构:
maas
创建时间:
2025-02-17
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个中文开源蒸馏数据集,源自完整的 DeepSeek-R1 模型,包含 110k 条样本,涵盖数学、考试、STEM 和通用类型数据,其中通用数据占比较大,来源包括百度贴吧、逻辑推理等平台。数据经过蒸馏生成,保留了推理和输出字段,并附带模型评分,适用于直接用于 SFT 训练,但需注意数据可能存在事实性不足等问题,使用时需仔细评估。
以上内容由遇见数据集搜集并总结生成



