five

tutur90/slimpajama6b-50k

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/tutur90/slimpajama6b-50k
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - en tags: - causal-lm - pretraining - slimpajama - quality-filtered --- # SlimPajama-6B (quality-filtered, original distribution) — 50,000-row subset A **50,000-row training** + **1,000-row evaluation** quality-filtered subset of [DKYoon/SlimPajama-6B](https://huggingface.co/datasets/DKYoon/SlimPajama-6B). Source proportions are **not reweighted** — the natural distribution of the dataset is preserved. Documents are shuffled (file order + within-file) then filtered with `keep_doc()` (see `dataset_builders/filters.py`): | Filter | Criterion | |---|---| | Length | 50–100 000 words | | Encoding | < 1 % replacement/control characters | | Repetition | top line < 30 % of lines; top bigram < 20 % of bigrams | | Alpha ratio | ≥ 65 % alphabetic characters | | Sentence length | avg 5–120 words/sentence | | Line break ratio | < 30 % newlines relative to characters | | Digit ratio | < 20 % digit characters | | Uppercase ratio | < 30 % of alpha characters are uppercase | Seed: 42. Train and eval are contiguous slices — no document overlap. Built with `dataset_builders/cli.py` from the [BLOR](https://github.com/arthurgaron/BLOR) repo.

SlimPajama-6B (quality-filtered, original distribution) — 50,000-row subset is a quality-filtered subset containing 50,000 rows of training data and 1,000 rows of evaluation data. The source proportions are not reweighted, preserving the natural distribution of the dataset. Documents are shuffled (file order + within-file) and filtered through a series of quality filters including length (50–100,000 words), encoding (< 1% replacement/control characters), repetition (top line < 30% of lines; top bigram < 20% of bigrams), alpha ratio (≥ 65% alphabetic characters), sentence length (avg 5–120 words/sentence), line break ratio (< 30% newlines relative to characters), digit ratio (< 20% digit characters), and uppercase ratio (< 30% of alpha characters are uppercase). The dataset was built with a specific seed (42), ensuring no document overlap between train and eval.
提供机构:
tutur90
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集为SlimPajama-6B经过质量过滤后的一个子集,涵盖50,000行训练样本与1,000行评估样本。其构建过程基于原始数据集的自然分布,未对源文档比例进行重新加权,确保了数据分布的原始性。文档经过文件内及跨文件的随机打乱后,通过一系列严格的过滤规则进行筛选,包括文档长度控制在50至100,000词之间、控制字符与替换字符占比低于1%、重复率限制(顶行重复不超过30%、顶级双词重复低于20%)、字母字符比例不低于65%、平均句子长度介于5至120词、换行符比例低于30%、数字字符比例低于20%以及大写字母比例低于30%。过滤后的训练集与评估集为连续切片,确保文档无重叠,种子值设定为42以保证可复现性。
特点
该数据集最显著的特点在于其原始分布保持完整,未引入任何重加权操作,忠实反映了SlimPajama-6B的自然数据生态。多达九项质量过滤标准全方位剔除低质量文本,从长度、编码纯度、重复模式到字符组成比例,共同塑造了一个高质量且平衡的文本集合。训练集与评估集采用无重叠的连续切片设计,避免了数据泄露的风险。种子固定的随机打乱机制确保了不同实验间的可比性。这些特征使得该数据集特别适用于因果语言模型的预训练任务,在不引入分布偏差的前提下提供纯净的训练素材。
使用方法
本数据集专为因果语言模型的预训练场景设计,其使用方式简洁直观。用户可通过HuggingFace的datasets库直接加载,利用提供的50,000行训练集进行模型训练,并用1,000行评估集进行验证。由于数据集保留了原始分布且经过质量筛选,使用时无需额外进行数据清洗或重采样。评估时应采用连续切片方式,避免打乱文档顺序以维持评估一致性。数据集以Apache 2.0许可发布,便于研究社区自由使用与改进,适合作为大规模语言模型预训练的基础数据资源。
背景与挑战
背景概述
SlimPajama-6B-50k数据集是SlimPajama-6B的一个经过质量过滤的子集,由DKYoon团队于2023年基于RedPajama数据集构建而成,旨在为大语言模型的预训练提供高质量、分布均衡的语料资源。该数据集遵循Apache-2.0许可证,专注于因果语言建模任务,保留了原始数据集的自然分布,并通过严格的多维过滤机制去除低质量文档。作为开源社区的重要贡献,SlimPajama系列在预训练数据清洗、模型性能提升及可复现性研究方面产生了显著影响,为后续OLMo、Pythia等模型训练提供了基准数据源。
当前挑战
该数据集旨在解决大语言模型预训练语料中噪声多、质量参差不齐的核心问题,通过文档长度、字符编码、重复度、字母比例等八项过滤标准,从13万亿token的RawPajama中筛选出高质量文本。构建过程中面临的核心挑战包括:如何在保持原始分布的同时高效过滤低质量文档,以及设计精确的阈值以避免过度过滤导致数据分布偏移。此外,大规模数据清洗的计算开销、过滤策略对下游任务泛化能力的影响,以及不同领域数据比例的合理保留,也是该数据集构建与使用中需要持续优化的难题。
常用场景
经典使用场景
SlimPajama-6B-50K作为大规模语言模型预训练语料库的精炼子集,常用于因果语言建模任务。研究者利用其经过严格质量过滤的50,000条训练样本与1,000条评估样本,在保留原始数据分布的前提下,对模型进行小规模迭代训练与超参数调优。该子集尤其适合在资源受限环境中验证预训练策略的有效性,例如测试新的分词算法、注意力机制变体或学习率调度方案,其经过清洗的高质量文本确保了实验结论的可靠性。
解决学术问题
该数据集的核心价值在于解决了大规模预训练语料质量混杂的学术困境。原始SlimPajama-6B混合了多种来源的网络文本,存在长度异常、编码错误、高重复率及符号比例失衡等问题。通过实施包含文本长度、字符编码、重复度、字母数字比例等八项严格过滤准则,研究者能够系统性地移除噪声数据,为探究语料质量对模型下游性能的因果影响提供了可控实验平台。这一工作推动了预训练语料净化方法论的发展,使学界得以更精准地分离数据质量与规模对模型能力提升的贡献。
衍生相关工作
围绕该数据子集衍生了一系列重要研究工作,其中最经典的是基于BLOR代码库构建的质量过滤管线。该管线不仅生产了本数据集,更成为开源社区中数据清洗的标准参考实现。后续工作包括在此子集上开发的重复率敏感型模型初始化方法,以及利用其评估切分进行的交叉机构模型质量基准测试。这些工作共同构成了从原始语料到精炼预训练数据的完整技术栈,深刻影响了低资源环境下的大模型研发实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作