Chinese-Data-Distill-From-R1

github2025-02-21 更新2025-02-19 收录

下载链接：

https://github.com/YunwenTechnology/Chinese-Data-Distill-From-R1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集为中文开源蒸馏满血R1的数据集，数据集中不仅包含math数据，还包括大量的通用类型数据，总数量为110K。

This is a Chinese open-source distilled full-capacity R1 dataset. It not only contains math data but also a large amount of general-purpose data, with a total of 110K samples.

创建时间：

2025-02-17

原始信息汇总

中文基于满血DeepSeek-R1蒸馏数据集（Chinese-Data-Distill-From-R1）

本数据集为中文开源蒸馏满血R1的数据集，包含math、exam、STEM和general四种类型的数据，总数量为110K。

Math：共计36987个样本
Exam：共计2440个样本
STEM：共计12000个样本
General：共计58573个样本，包含弱智吧、逻辑推理、小红书、知乎、Chat等

数据来源于以下数据集：

数据蒸馏过程遵循DeepSeek-R1官方提供的细节，并通过无问芯穹的企业版满血R1 API生成。

局限性

数据未经严格验证，可能存在事实性不足。使用时请注意甄别。

引用

text @misc{Chinese-Data-Distill-From-R1, author = {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang}, title = {The Chinese dataset distilled from DeepSeek-R1-671b}, year = {2025}, publisher = {HuggingFace}, howpublished = {url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, }

搜集汇总

数据集介绍

构建方式

Chinese-Data-Distill-From-R1数据集的构建，依托DeepSeek-R1模型，通过蒸馏技术，从多个中文数据源中提炼而成。数据集涵盖了数学、考试、STEM以及通用类型的数据，总量达到110K。数据来源包括但不限于Advanced-Math、applied_math、GSM8K_zh等，并在每条数据中注明了原始数据源的repo，确保了数据的可追溯性。蒸馏过程中遵循DeepSeek-R1的官方指南，保持了数据的一致性和高质量。

特点

该数据集的特点在于其多元化和实用性。它不仅包含了数学和考试相关数据，还整合了大量的通用场景数据，如逻辑推理、社交媒体内容等，为模型训练提供了丰富的语境和场景。此外，数据集在生成过程中未增加额外系统提示词，保证了数据的纯净性和模型训练的准确性。每条数据均标注了来源，便于用户验证和引用。

使用方法

用户可通过Hugging Face或ModelScope平台获取该数据集。在使用时，建议用户仔细阅读每条数据的repo_name字段以了解数据来源，并严格按照DeepSeek-R1的蒸馏细节进行数据处理。同时，用户在使用数据集时应注意甄别数据的事实性，避免未经验证的信息对模型训练造成影响。引用数据集时，应按照提供的格式正确引用，尊重数据集开发者的知识产权。

背景与挑战

背景概述

Chinese-Data-Distill-From-R1数据集，是在2025年由刘聪等研究人员创建的开源中文数据集。该数据集通过蒸馏满血DeepSeek-R1模型生成，旨在为研究者和开发者提供用于训练和复现R1蒸馏模型效果的中文数据资源。数据集涵盖了数学、考试、STEM和通用场景等类型的数据，总量达到110K个样本，其来源包括多个数学和场景数据集。该数据集的开源，为中文自然语言处理领域的研究提供了重要资源，并推动了相关技术的发展。

当前挑战

尽管Chinese-Data-Distill-From-R1数据集为研究者提供了丰富的中文数据资源，但在使用过程中仍面临一些挑战。首先，数据集通过模型蒸馏生成，未经严格验证，可能存在事实性错误或其他方面的不足，这要求研究者在应用时需谨慎甄别。其次，构建过程中，数据集的生成依赖于企业版满血R1 API，涉及资源限制和性能稳定性问题。此外，数据集的引用和使用需遵循相应的规范，以避免可能出现的责任纠纷。

常用场景

经典使用场景

在自然语言处理领域，尤其是对于中文语言模型的研究与开发，Chinese-Data-Distill-From-R1数据集提供了一个重要的资源。该数据集的经典使用场景主要集中于模型训练与微调，通过其丰富的数学、考试、STEM及通用场景数据，研究者可以训练出在中文问答、数学推理等方面具有较高准确性的模型。

解决学术问题

该数据集解决了中文环境下缺乏大规模、多样化数据集的问题，特别是在数学和逻辑推理领域。它的出现不仅促进了中文语言模型在数学类任务上的性能提升，也为模型在理解和生成复杂逻辑表达方面的研究提供了可靠的数据基础，对于推动中文自然语言处理技术的发展具有重要意义。

衍生相关工作

基于Chinese-Data-Distill-From-R1数据集，研究者已经开展了一系列相关工作，包括但不限于对数据集进行深入分析，提出新的模型训练策略，以及开发专门针对数学推理任务的模型架构。这些衍生工作进一步扩展了该数据集的应用范围，推动了中文自然语言处理领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集