Chinese-DeepSeek-R1-Distill-data-110k

Hugging Face2025-02-21 更新2025-03-06 收录

下载链接：

https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k

下载链接

链接失效反馈

资源简介：

本数据集为中文开源蒸馏满血R1的数据集，数据集中不仅包含math数据，还包括大量的通用类型数据，总数量为110K。R1的效果十分强大，并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果，但检索发现，大部分开源的R1蒸馏数据集均为英文数据集。同时，R1的报告中展示，蒸馏模型中同时也使用了部分通用场景数据集。为了帮助大家更好地复现R1蒸馏模型的效果，特此开源中文数据集。

This is a Chinese open-source dataset for distilling the full, unablated R1 model. The dataset contains not only mathematical data but also a large volume of general-purpose data, with a total of 110K samples. The R1 model exhibits exceptional performance, and small models supervised fine-tuned (SFT) using the R1 distillation data also demonstrate strong capabilities. However, a search of existing open-source repositories reveals that most available R1 distillation datasets are in English. Meanwhile, the original R1 technical report indicates that the distillation process also incorporated multiple general-scenario datasets. To enable the research community to better reproduce the performance of the R1 distillation model, we hereby open-source this Chinese dataset.

提供机构：

CongLiu

创建时间：

2025-02-21

AI搜集汇总

数据集介绍

构建方式

该数据集的构建是基于深度学习模型DeepSeek-R1的蒸馏技术，从多个来源的高质量数据集中提炼而成。数据涵盖了数学、考试、STEM和通用类别，共计110K样本，旨在为中文文本生成和问答任务提供强大的训练资源。构建过程中，特别为数学数据增加了推理提示，并确保输出格式的一致性，以优化模型的学习效率。

使用方法

用户可以直接从Hugging Face或ModelScope平台下载该数据集，并按照提供的字段结构进行加载和训练。数据集支持多种NLP任务，如文本生成、文本到文本生成和问答等。使用前，用户需确保遵守Apache-2.0开源协议，并在必要时对数据进行二次校验和评分，以保障模型训练的质量和效果。

背景与挑战

背景概述

在自然语言处理领域，中文文本生成与理解是长期面临的研究课题。Chinese-DeepSeek-R1-Distill-data-110k数据集，创建于2025年，是由Cong Liu等研究人员开源的中文蒸馏数据集，旨在提供与满血R1模型相匹配的中文训练资源。该数据集整合了数学、考试、STEM及通用场景等类别数据，共计110K样本，对推动中文NLP模型的研发与效果验证具有重要价值。数据集的开源，降低了研究人员获取高质量训练数据的门槛，加速了中文自然语言处理技术的发展。

当前挑战

尽管Chinese-DeepSeek-R1-Distill-data-110k数据集为中文NLP研究提供了有力支撑，但其构建过程面临着多方面的挑战。首先，数据集的蒸馏过程需要大量计算资源，对个人研究者而言，存在资源获取的难度。其次，数据集的质量评估依赖于模型打分，存在主观性，可能影响数据集的准确性。此外，数据集的多样性及覆盖性仍有限，可能无法涵盖所有中文语言处理的场景，这对其广泛应用提出了挑战。

常用场景

经典使用场景

在自然语言处理领域，中文基于满血DeepSeek-R1蒸馏数据集（Chinese-DeepSeek-R1-Distill-data-110k）被广泛用于文本生成、文本到文本生成以及问答等任务。该数据集融合了数学、考试、STEM以及通用场景等多样化的数据类型，使得模型可以在多种场景下进行有效的学习和推理，进而提高模型对不同类型文本的理解和生成能力。

解决学术问题

该数据集解决了中文NLP领域在模型训练时缺乏多样化、高质量数据的问题。通过提供包含丰富数学问题和通用场景对话的数据，它极大地促进了学术研究中模型泛化能力的提升，为研究者在模型训练和评估过程中提供了可靠的数据基础，推动了中文自然语言处理技术的发展。

实际应用

在实际应用中，Chinese-DeepSeek-R1-Distill-data-110k数据集可被用于开发智能对话系统、在线教育平台以及智能客服等领域，其多样化的数据类型有助于提升这些应用场景下模型的性能，实现更加精准和自然的用户交互体验。

数据集最近研究