five

中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本

收藏
魔搭社区2026-06-06 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT
下载链接
链接失效反馈
官方服务:
资源简介:
# 中文基于满血DeepSeek-R1蒸馏数据集(Chinese-Data-Distill-From-R1) <p align="center"> 🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a> </p> 注意:该版本为,可以直接SFT使用的版本,将[原始数据](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k)中的思考和答案整合成output字段,大部分SFT代码框架均可直接直接加载训练。 本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。 为什么开源这个数据? R1的效果十分强大,并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果,但检索发现,大部分开源的R1蒸馏数据集均为英文数据集。 同时,R1的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集。 为了帮助大家更好地复现R1蒸馏模型的效果,特此开源中文数据集。 该中文数据集中的数据分布如下: - Math:共计36568个样本, - Exam:共计2432个样本, - STEM:共计12648个样本, - General:共计58352,包含弱智吧、逻辑推理、小红书、知乎、Chat等。 ## 数据集蒸馏细节 数据的prompt源来自: - [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math) - [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math) - [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh) - [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math) - [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) - [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2) - [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction) 同时为了方便大家溯源,在每条数据的repo_name字段中都加入的原始数据源repo。 在蒸馏过程中,按照[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1)官方提供的细节,进行数据蒸馏。 - 不增加额外的系统提示词 - 设置temperature为0.6 - 如果为数学类型数据,则增加提示词,“请一步步推理,并把最终答案放到 \boxed{}。” - 防止跳出思维模式,强制在每个输出的开头增加"\n",再开始生成数据 由于个人资源有限,所有数据的蒸馏均调用[无问芯穹](https://cloud.infini-ai.com/genstudio?source=knlpdis)的企业版满血R1 API生成,在此由衷的感谢无问芯穹。 任务期间,保持稳定地运行300并发,支持64k上下文,32k输出长度,持续运行近12个小时,性能始终保持一致,数据可用性100%。测试时首token延时基本在500ms以下,推理速度最快25 tokens/s(需根据实际运行任务进行测试实际稳定性指标比较合理)。 ## 数据打分细节 数据生成结果进行了二次校验,并保留了评价分数。 针对Math和Exam数据,先利用[Math-Verify](https://github.com/huggingface/Math-Verify)进行校对,无法规则抽取结果的数据,再利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型进行打分,正确为10分,错误为0分。 针对其他数据,直接利用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型从无害性、有用性、正确性/完整性三个角度进行打分,分值范围为0-10分。 本数据集保留了最后打分结果,为后续的数据筛选提供帮助,但注意,所有打分均基于模型,因此评分可能并不准确,请斟酌使用。 ## 局限性 由于数据是由蒸馏DeepSeek-R1生成的,未经严格验证,在事实性和其他方面还存在一些不足。因此,在使用此数据集时,请务必注意甄别。 本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷,本项目的开发者不承担任何责任。 ## 引用 ```text @misc{Chinese-Data-Distill-From-R1, author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang}, title = {The Chinese dataset distilled from DeepSeek-R1-671b}, year = {2025}, publisher = {HuggingFace}, howpublished = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, } ``` ## 联系作者 - 知乎:[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP) - 公众号:[NLP工作站](images/image.png)

# 基于满血DeepSeek-R1的中文蒸馏数据集(Chinese-Data-Distill-From-R1) <p align="center">🤗 <a href="https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k">ModelScope</a> </p> 注意:本版本为可直接用于监督微调(Supervised Fine-Tuning, SFT)的就绪版本:将[原始数据](https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k)中的思考过程与答案整合为`output`字段,兼容绝大多数SFT训练代码框架的直接加载与训练。 本数据集为开源的满血DeepSeek-R1中文蒸馏数据集,涵盖数学类数据与海量通用场景数据,总规模达110K样本。 为何开源本数据集? DeepSeek-R1模型性能优异,基于其蒸馏数据进行监督微调的小型模型亦展现出强劲的效果。经调研发现,当前绝大多数开源的R1蒸馏数据集均为英文版本;同时,DeepSeek-R1官方报告显示,其蒸馏过程亦使用了部分通用场景数据集。为助力研究者复现R1蒸馏模型的优异效果,我们特此开源本中文蒸馏数据集。 本数据集的样本分布如下: - 数学(Math)类:共36568条样本 - 考试(Exam)类:共2432条样本 - STEM类:共12648条样本 - 通用(General)类:共58352条样本,涵盖弱智吧、逻辑推理、小红书、知乎、对话类等场景 ## 数据集蒸馏细节 本数据集的Prompt来源如下: - [Haijian/Advanced-Math](https://modelscope.cn/datasets/Haijian/Advanced-Math) - [gavinluo/applied_math](https://modelscope.cn/datasets/gavinluo/applied_math) - [meta-math/GSM8K_zh](https://huggingface.co/datasets/meta-math/GSM8K_zh) - [EduChat-Math](https://github.com/ECNU-ICALK/EduChat-Math) - [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) - [m-a-p/neo_sft_phase2](https://huggingface.co/datasets/m-a-p/neo_sft_phase2) - [hfl/stem_zh_instruction](https://huggingface.co/datasets/hfl/stem_zh_instruction) 为便于研究者溯源,每条样本的`repo_name`字段均标注了其原始数据源仓库名称。 本次蒸馏严格遵循[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1)官方公布的蒸馏流程与参数设置: - 不添加额外系统提示词 - 温度系数(temperature)设置为0.6 - 针对数学类样本,追加提示词:"请逐步推理,并将最终答案置于 oxed{} 中。" - 为避免生成脱离思维链,强制要求所有输出以换行符` `开头,再启动内容生成 鉴于个人科研资源有限,本数据集的蒸馏生成全部依托[无问芯穹](https://cloud.infini-ai.com/genstudio?source=knlpdis)企业版满血DeepSeek-R1 API完成,在此向无问芯穹致以诚挚谢意。 本次蒸馏任务稳定维持300并发请求,支持64k上下文窗口与32k输出长度,持续运行近12小时,全程性能一致,数据可用性达100%。经测试,首Token延迟基本低于500ms,最快推理速度可达25 tokens/s(实际稳定性指标需结合具体运行任务评估)。 ## 数据打分细节 本数据集对所有生成样本进行了二次校验,并保留了对应的评价得分。 针对数学与考试类样本,先通过[Math-Verify](https://github.com/huggingface/Math-Verify)工具进行自动校对;对于无法通过规则抽取结果的样本,则采用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型进行打分,正确样本得10分,错误样本得0分。 针对其余类别样本,则直接采用[Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)模型,从无害性、有用性、正确性与完整性三个维度进行打分,分值区间为0~10分。 本数据集保留了最终打分结果,可为后续样本筛选提供参考。需注意的是,所有评分均由模型生成,可能存在偏差,使用时请酌情甄别。 ## 局限性 本数据集由DeepSeek-R1蒸馏生成,未经严格人工核验,在事实准确性等方面可能存在不足。使用本数据集时,请务必对生成内容进行甄别与校验。 本数据集仅为科研工具,不代表任何个人或组织的立场、利益与观点,亦不代表任何团体的主张。因使用本数据集引发的任何损害、纠纷,本项目开发者不承担相关责任。 ## 引用 text @misc{Chinese-Data-Distill-From-R1, author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang}, title = {The Chinese dataset distilled from DeepSeek-R1-671b}, year = {2025}, publisher = {HuggingFace}, howpublished = {url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, } ## 联系作者 - 知乎:[刘聪NLP](https://www.zhihu.com/people/LiuCongNLP) - 公众号:[NLP工作站](images/image.png)
提供机构:
maas
创建时间:
2025-02-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个中文开源蒸馏数据集,基于DeepSeek-R1模型,包含110K样本,涵盖数学、考试、STEM和通用类型数据。数据经过模型评分和验证,适合直接用于监督微调(SFT)训练。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务