five

thu-pacman/PCMind-2.1-Kaiyuan-2B

收藏
Hugging Face2025-12-12 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/thu-pacman/PCMind-2.1-Kaiyuan-2B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是PCMind-v2.1-Kaiyuan-2B语言模型的完整预训练数据集,包含5个训练阶段,采用领域特定的混合策略,覆盖英文、中文、代码、数学和SFT(监督微调)五个主要领域。前两个阶段使用均匀采样策略,后三个阶段采用课程学习策略。数据集大小超过1TB,支持中文和英文,采用Apache-2.0许可证。

This dataset is the complete pretraining dataset for the PCMind-v2.1-Kaiyuan-2B language model, organized into 5 training phases with domain-specific mixing strategies across five primary domains: English, Chinese, Code, Math, and SFT (Supervised Fine-Tuning). Phases 1-2 employ uniform sampling, while phases 3-5 use curriculum learning. The dataset exceeds 1TB in size, supports Chinese and English languages, and is licensed under Apache-2.0.
提供机构:
thu-pacman
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作