PCMind-2.1-Kaiyuan-2B

Hugging Face2025-12-12 更新2025-12-13 收录

下载链接：

https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于预训练PCMind-v2.1-Kaiyuan-2B语言模型的完整数据集，包含5个训练阶段。每个阶段采用不同的领域混合策略，主要涵盖五个领域：英文通用文本、中文通用文本、编程代码内容、数学推理问题和监督微调数据。前两个阶段采用均匀采样策略（单列'text'格式），后三个阶段采用课程学习策略（两列：'text'内容和'rank'样本顺序）。数据集支持中英双语，专注于文本生成任务，并遵循Apache-2.0许可。

创建时间：

2025-12-08

原始信息汇总

数据集概述

基本信息

数据集名称: PCMind-2.1-Kaiyuan-2B 预训练数据集
托管地址: https://huggingface.co/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B
许可证: Apache-2.0 License
任务类别: 文本生成
语言: 中文、英文
标签: 代码、数学、语言、监督微调
规模类别: 大于1T

数据集描述

本数据集为完全开源的 PCMind-v2.1-Kaiyuan-2B 语言模型的完整预训练数据集。

领域构成

数据集涵盖五个主要领域：

英文: 通用英文文本
中文: 通用中文文本
代码: 编程与代码相关内容
数学: 数学推理与问题
监督微调: 监督微调数据

训练阶段结构

训练过程分为五个阶段，采用两种不同的采样策略：

阶段	采样策略	数据格式
第1-2阶段	均匀采样	单列: `text`
第3-5阶段	课程学习	两列: `text` (内容), `rank` (样本顺序)

关键区别:

第1-2阶段: 均匀数据分布，随机采样
第3-5阶段: 基于课程学习，使用 rank 字段进行有序样本递进

每个阶段在五个领域上采用策略性设计的混合比例，具体组成和比例详见技术报告。

引用

如使用本数据集，请引用技术报告： bibtex @misc{luo2025pcmind21kaiyuan2btechnicalreport, title={PCMind-2.1-Kaiyuan-2B Technical Report}, author={Kairong Luo and Zhenbo Sun and Xinyu Shi and Shengqi Chen and Bowen Yu and Yunyi Chen and Chenyi Dang and Hengtao Tao and Hui Wang and Fangming Liu and Kaifeng Lyu and Wenguang Chen}, year={2025}, eprint={2512.07612}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.07612}, }

许可声明

所有成果（包括代码、模型权重和训练数据）均根据 Apache-2.0 许可证授权，版权归清华大学和鹏城实验室所有。

重要提示: 本数据集是多个底层原始数据集的衍生作品，用户必须遵守每个源数据集的适用许可条款。详情请参阅技术报告的B部分。

搜集汇总

数据集介绍

构建方式

在构建PCMind-2.1-Kaiyuan-2B数据集时，研究者们精心设计了一个分阶段的训练框架，将数据划分为五个连续的训练阶段。这一构建过程融合了领域特定的混合策略，涵盖了英文、中文、代码、数学以及监督微调五大核心领域。前两个阶段采用均匀采样的方式，数据以单一的文本列呈现，确保各领域数据得到均衡的随机曝光。从第三阶段开始，则引入了课程学习机制，数据格式转变为包含内容文本和排序等级的双列结构，通过有序的样本递进来引导模型逐步掌握复杂知识。每个阶段的领域混合比例均经过战略性的规划与调整，具体细节可参考其技术报告，而完整的预处理流程则由Kaiyuan-Spark代码库提供支持。

特点

PCMind-2.1-Kaiyuan-2B数据集展现出鲜明的结构化特征，其核心在于将超过1T规模的海量语料，依据领域与训练目标进行了系统性的组织。数据集并非简单的集合，而是被精心编排为五个训练阶段，每个阶段都承载着特定的教学意图。尤为突出的是其动态的采样策略：前期阶段注重广泛而均匀的数据覆盖，后期则转向基于课程学习的渐进式排序，这种设计旨在模拟人类从基础到精通的认知过程。数据集同时覆盖了通用语言、专业代码与数学推理等多个维度，为训练一个全面而强大的开源语言模型奠定了坚实的数据基础。

使用方法

为了有效利用该数据集进行模型训练，使用者需遵循其预设的阶段化训练范式。实践时，应按照第一至第五阶段的顺序依次加载相应的数据文件。对于前两个阶段，可直接读取‘text’列的内容进行模型预训练；进入第三至第五阶段后，则需要同时利用‘text’和‘rank’两列信息，依据排序等级所指示的课程顺序来组织训练样本。整个训练流程旨在复现原始报告中描述的领域混合比例与采样策略，从而确保模型能够按计划吸收不同领域的知识。相关的数据构建与预处理脚本可在Kaiyuan-Spark项目中获取，为复现工作提供了完整的技术路径。

背景与挑战

背景概述

PCMind-2.1-Kaiyuan-2B数据集由清华大学与鹏城实验室于2025年联合构建，旨在为开源语言模型提供全面的预训练语料。该数据集围绕文本生成任务，精心整合了英语、中文、代码、数学及监督微调五大核心领域的数据资源，总规模超过1万亿标记。其设计初衷在于解决当前大语言模型在跨领域知识融合与专业能力泛化方面的瓶颈，通过分阶段、课程化的混合采样策略，系统性地提升模型在复杂推理与多语言任务上的表现力，为后续开源模型的研发奠定了坚实的数据基础。

当前挑战

该数据集致力于应对大语言模型在代码生成与数学推理等专业领域泛化能力不足的核心挑战，其构建过程亦面临多重困难。在领域问题层面，如何平衡不同数据源（如通用文本与专业代码）的分布与质量，以实现模型在多样化任务上的均衡性能，是一项关键难题。在构建过程中，数据集的整合涉及海量异构原始数据的清洗、去重与格式统一，同时需设计科学的分阶段课程学习方案，确保各训练阶段的数据混合比例与采样顺序能有效引导模型能力渐进式发展，这对数据处理流程与算法设计提出了极高要求。

常用场景

经典使用场景

在大型语言模型预训练领域，PCMind-2.1-Kaiyuan-2B数据集作为其核心训练语料，展现了多领域混合训练范式的经典应用。该数据集通过精心设计的五个训练阶段，将英文、中文、代码、数学及监督微调数据按特定比例融合，为模型提供了从通用语言理解到专业领域推理的渐进式学习路径。尤其在第三至第五阶段引入课程学习策略，依据样本难度排序进行有序采样，有效引导模型从基础语言模式习得逐步过渡至复杂逻辑与专业知识的掌握，成为构建高性能、多能力融合开源模型的关键基石。

实际应用

基于该数据集训练的Kaiyuan-2B模型，其实际应用广泛覆盖了智能编程助手、教育技术工具及跨语言信息处理等多个场景。在软件开发领域，模型能够辅助代码补全、错误调试及文档生成；在数学与科学教育中，可提供分步解题指导与概念解释。同时，其优秀的中英文双语能力支持了机器翻译、内容摘要及智能客服等自然语言处理任务，为产业界提供了开源、可定制且能力均衡的基础模型解决方案，降低了前沿AI技术的应用门槛。

衍生相关工作

该数据集的构建方法论及其训练的模型，已衍生出一系列围绕高效训练策略与多领域能力评估的经典研究工作。其开源的预处理框架Kaiyuan-Spark为社区提供了大规模数据清洗、去重与质量评估的标准化工具链。相关技术报告系统阐述了领域混合比例与课程学习对模型最终性能的影响，启发了后续研究在数据配比优化、动态课程设计以及训练阶段划分等方面的深入探索，为构建更高效、更透明的开源模型训练生态贡献了重要蓝本与实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集