中文基于满血DeepSeek-R1蒸馏数据集-110k

Name: 中文基于满血DeepSeek-R1蒸馏数据集-110k
Creator: maas
Published: 2026-06-06 20:36:32
License: 暂无描述

魔搭社区2026-06-06 更新2025-02-22 收录

下载链接：

https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k

下载链接

链接失效反馈

官方服务：

资源简介：

# 中文基于满血DeepSeek-R1蒸馏数据集（Chinese-Data-Distill-From-R1） <p align="center"> 🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a> &nbsp&nbsp | &nbsp&nbsp🚀 <a href="https://github.com/YunwenTechnology/Chinese-Data-Distill-From-R1">Github</a> &nbsp&nbsp | &nbsp&nbsp📑 <a href="https://zhuanlan.zhihu.com/p/24430839729">Blog</a> </p> 注意：提供了直接SFT使用的版本，[点击下载](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。将数据中的思考和答案整合成output字段，大部分SFT代码框架均可直接直接加载训练。本数据集为中文开源蒸馏满血R1的数据集，数据集中不仅包含math数据，还包括大量的通用类型数据，总数量为110K。为什么开源这个数据？ R1的效果十分强大，并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果，但检索发现，大部分开源的R1蒸馏数据集均为英文数据集。同时，R1的报告中展示，蒸馏模型中同时也使用了部分通用场景数据集。为了帮助大家更好地复现R1蒸馏模型的效果，特此开源中文数据集。该中文数据集中的数据分布如下： - Math：共计36568个样本， - Exam：共计2432个样本， - STEM：共计12648个样本， - General：共计58352，包含弱智吧、逻辑推理、小红书、知乎、Chat等。字段说明： - input: 输入 - reasoning_content: 思考 - content: 输出 - repo_name: 数据源 - score: 模型打分结果 ## 数据集蒸馏细节数据的prompt源来自： - [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math) - [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math) - [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh) - [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math) - [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) - [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2) - [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction) 同时为了方便大家溯源，在每条数据的repo_name字段中都加入的原始数据源repo。在蒸馏过程中，按照[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1)官方提供的细节，进行数据蒸馏。 - 不增加额外的系统提示词 - 设置temperature为0.6 - 如果为数学类型数据，则增加提示词，“请一步步推理，并把最终答案放到 \boxed{}。” - 防止跳出思维模式，强制在每个输出的开头增加"\n"，再开始生成数据由于个人资源有限，所有数据的蒸馏均调用[无问芯穹](https://cloud.infini-ai.com/genstudio?source=knlpdis)的企业版满血R1 API生成，在此由衷的感谢无问芯穹。任务期间，保持稳定地运行300并发，支持64k上下文，32k输出长度，持续运行近12个小时，性能始终保持一致，数据可用性100%。测试时首token延时基本在500ms以下，推理速度最快25 tokens/s（需根据实际运行任务进行测试实际稳定性指标比较合理）。 ## 数据打分细节数据生成结果进行了二次校验，并保留了评价分数。针对Math和Exam数据，先利用[Math-Verify](https://github.com/huggingface/Math-Verify)进行校对，无法规则抽取结果的数据，再利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型进行打分，正确为10分，错误为0分。针对其他数据，直接利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型从无害性、有用性、正确性/完整性三个角度进行打分，分值范围为0-10分。本数据集保留了最后打分结果，为后续的数据筛选提供帮助，但注意，所有打分均基于模型，因此评分可能并不准确，请斟酌使用。数据的二次校验，使用8张A100 GPU 部署多节点Qwen72B模型进行推理打分，耗时接近24H，感谢我司云问科技提供的服务器支持。 ## 局限性由于数据是由蒸馏DeepSeek-R1生成的，未经严格验证，在事实性和其他方面还存在一些不足。因此，在使用此数据集时，请务必注意甄别。本数据集不代表任何一方的立场、利益或想法，无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷，本项目的开发者不承担任何责任。 ## 引用 ```text @misc{Chinese-Data-Distill-From-R1, author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang}, title = {The Chinese dataset distilled from DeepSeek-R1-671b}, year = {2025}, publisher = {HuggingFace}, howpublished = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, } ``` ## 联系作者 - email: cliu@iyunwen.com - 知乎：[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP) - 公众号：[NLP工作站](images/image.png)

# 基于满血DeepSeek-R1蒸馏的中文数据集（Chinese-Data-Distill-From-R1） <p align="center"> 🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a> &nbsp&nbsp | &nbsp&nbsp🚀 <a href="https://github.com/YunwenTechnology/Chinese-Data-Distill-From-R1">GitHub</a> &nbsp&nbsp | &nbsp&nbsp📑 <a href="https://zhuanlan.zhihu.com/p/24430839729">博客</a> </p> 注意：本数据集提供了可直接用于监督微调（Supervised Fine-Tuning, SFT）的版本，[点击下载](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT)。将数据中的思考过程与最终答案整合为output字段后，绝大多数SFT代码框架均可直接加载并用于训练。本数据集为开源的基于满血DeepSeek-R1蒸馏的中文数据集，不仅包含数学类样本，还涵盖大量通用场景数据，总规模达110K。为何开源本数据集？ DeepSeek-R1模型效果卓越，基于其蒸馏数据进行监督微调（SFT）的小型模型同样表现出色。但经检索发现，当前绝大多数开源的R1蒸馏数据集均为英文数据集。此外，R1官方报告显示，其蒸馏模型的训练同时使用了部分通用场景数据集。为助力研究者复现R1蒸馏模型的效果，我们特此开源本中文数据集。本数据集的样本分布如下： - 数学（Math）：共计36568条样本 - 考试（Exam）：共计2432条样本 - 工程技术科学（STEM）：共计12648条样本 - 通用（General）：共计58352条样本，涵盖弱智吧、逻辑推理、小红书、知乎、闲聊等场景字段说明： - input：输入文本 - reasoning_content：思考过程 - content：最终输出 - repo_name：原始数据源 - score：模型评分结果 ## 数据集蒸馏流程细节本次数据集的提示词（Prompt）来源如下： - [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math) - [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math) - [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh) - [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math) - [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) - [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2) - [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction) 同时为便于使用者溯源，每条数据的repo_name字段均标注了其原始数据源仓库。本次数据蒸馏严格遵循DeepSeek-R1官方公布的流程细节执行，具体规则如下： - 未添加任何额外系统提示词 - 温度系数（temperature）设置为0.6 - 针对数学类样本，追加提示词："请逐步推理，并将最终答案置于 oxed{} 中。" - 为避免脱离思维生成模式，强制在每段输出的开头添加换行符" "后再启动内容生成因个人算力资源有限，本次所有数据蒸馏均通过调用无问芯穹企业版满血R1应用程序接口（API）完成，在此向无问芯穹致以诚挚谢意。任务执行期间，稳定维持300并发请求，支持64k上下文窗口与32k输出长度，连续运行近12小时，性能始终保持一致，数据可用性达100%。测试结果显示，首Token（Token）延时基本低于500ms，最高推理速度可达25 tokens/s（实际稳定性指标需结合具体运行任务评估）。 ## 数据评分细则所有数据生成结果均经过二次校验，并保留了对应的评分结果。针对数学（Math）与考试（Exam）类样本，先通过Math-Verify工具进行校验；对于无法通过规则抽取结果的样本，再使用Qwen2.5-72B-Instruct模型进行评分，正确样本得10分，错误样本得0分。针对其余类别样本，则直接通过Qwen2.5-72B-Instruct模型从无害性、有用性、正确性与完整性三个维度进行评分，分值区间为0至10分。本数据集保留了最终评分结果，可为后续数据筛选提供参考，但需注意：所有评分均由模型生成，可能存在偏差，请使用者谨慎选用。本次数据二次校验通过部署8张A100 GPU的多节点集群运行Qwen72B模型完成评分推理，耗时近24小时，在此感谢云问科技提供的服务器支持。 ## 数据集局限性本数据集由DeepSeek-R1蒸馏生成，未经过严格的人工验证，在事实准确性等方面仍存在一定不足。因此，在使用本数据集时，请务必仔细甄别内容。本数据集不代表任何机构或个人的立场、利益与观点，亦不代表任何团体的任何主张。因使用本数据集引发的任何损害、纠纷，本项目开发者不承担任何法律责任。 ## 引用格式 text @misc{Chinese-Data-Distill-From-R1, author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang}, title = "The Chinese dataset distilled from DeepSeek-R1-671b", year = {2025}, publisher = {HuggingFace}, howpublished = {url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, } ## 作者联系方式 - 邮箱：cliu@iyunwen.com - 知乎账号：[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP) - 微信公众号：[NLP工作站](images/image.png)

提供机构：

maas

创建时间：

2025-02-17

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个中文开源蒸馏数据集，源自完整的 DeepSeek-R1 模型，包含 110k 条样本，涵盖数学、考试、STEM 和通用类型数据，其中通用数据占比较大，来源包括百度贴吧、逻辑推理等平台。数据经过蒸馏生成，保留了推理和输出字段，并附带模型评分，适用于直接用于 SFT 训练，但需注意数据可能存在事实性不足等问题，使用时需仔细评估。

以上内容由遇见数据集搜集并总结生成