Slimpajama
收藏arXiv2025-09-30 收录
下载链接:
https://huggingface.co/datasets/DKYoon/SlimPajama-6B
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是对RedPajama的清洗和去重版本,它提供了一个高质量的前训练语料库,包含了多样化的数据来源,如C4、ArXiv、GitHub、书籍等。该数据集的任务是为大型语言模型的剪枝提供校准数据。
This dataset is a cleaned and deduplicated version of RedPajama. It provides a high-quality pre-training corpus with diverse data sources including C4, ArXiv, GitHub, books and other resources. Its intended use is to supply calibration data for the pruning of large language models (LLMs).
提供机构:
DKYoon
搜集汇总
背景与挑战
背景概述
Slimpajama 是RedPajama数据集的清洗和去重版本,旨在提供高质量的前训练语料库,包含C4、ArXiv、GitHub、书籍等多样化数据来源,专门用于大型语言模型的剪枝校准任务。这确保了数据集的纯净性和实用性,以支持模型优化。
以上内容由遇见数据集搜集并总结生成



