SlimPajama-Meta-rater-Cleanliness-30B
收藏Hugging Face2025-06-14 更新2025-06-15 收录
下载链接:
https://huggingface.co/datasets/opendatalab/SlimPajama-Meta-rater-Cleanliness-30B
下载链接
链接失效反馈官方服务:
资源简介:
这个数据集包含了从SlimPajama-627B语料库中选出的排名前30B的标记,这些标记是使用PRRC框架的清洁度维度进行选择的。每个文档都由一个经过ModernBERT模型微调的评分器进行评分和过滤,以评估文本的格式、完整性和无关内容的缺失。数据集来源于SlimPajama-627B注释数据集,选择了清洁度评分最高的30B标记。数据集的质量指标是清洁度,标注覆盖率为100%。
创建时间:
2025-06-13
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,数据质量对预训练语言模型的性能具有决定性影响。该数据集基于SlimPajama-627B语料库,采用PRRC框架中的Cleanliness维度进行筛选,通过ModernBERT评分模型对文本的格式完整性、内容纯净度进行量化评估,最终精选出30B最具价值的标记。构建过程中,首先由Llama-3.3-70B-Instruct对50万样本进行人工标注,继而训练ModernBERT模型完成全量数据评分,确保筛选过程的科学性与可扩展性。
特点
作为经过严格质量过滤的预训练数据集,其核心价值体现在多维度的品质把控。所有文本均获得4-5分的Cleanliness评分,意味着内容具有规范的格式、完整的语义表达以及极低的噪声干扰。数据覆盖CommonCrawl、C4、GitHub等七大领域,在保持原始语料多样性的同时,通过现代深度学习技术实现了质量跃升。每个文档附带的清洁度评分更为研究者提供了细粒度的质量参考。
使用方法
该数据集特别适合需要高质量预训练数据的场景。研究者可直接将其用于语言模型的预训练阶段,或作为对比实验中的基准数据集。使用时应关注文档附带的Cleanliness评分,根据具体任务需求选择适当的质量阈值。对于领域适应性研究,可结合原始SlimPajama数据进行对比分析,探究数据质量对模型性能的影响机制。数据集采用与SlimPajama相同的许可协议,确保了法律使用的合规性。
背景与挑战
背景概述
SlimPajama-Meta-rater-Cleanliness-30B数据集由OpenDataLab团队于2025年推出,旨在解决大规模预训练语言模型数据质量筛选的核心问题。该数据集基于PRRC(专业性、可读性、推理性和清洁度)多维评估框架中的清洁度维度,从6270亿token的SlimPajama原始语料中精选出300亿token的高质量子集。研究团队创新性地采用ModernBERT模型对文本的格式规范性、内容完整性和噪声程度进行自动化评分,为语言模型预训练提供了新的数据选择范式。该工作发表在《Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models》论文中,对提升大模型训练数据的信噪比具有重要指导意义。
当前挑战
该数据集面临的核心挑战主要体现在两个维度:在领域问题层面,如何精准量化文本清洁度这一主观概念存在显著困难,需要平衡格式规范、内容完整与噪声消除等多重标准;在构建过程层面,依赖Llama-3.3-70B-Instruct进行初始标注面临计算资源消耗大的问题,而基于ModernBERT的自动化评分模型需要克服小模型模仿大模型评估能力的迁移学习挑战。此外,从异构数据源(包括CommonCrawl、C4、GitHub等)中保持清洁度标准的一致性,以及处理超大规模语料(6270亿token)的计算效率问题,都是构建过程中需要突破的技术瓶颈。
常用场景
经典使用场景
在自然语言处理领域,高质量的数据集对于预训练语言模型至关重要。SlimPajama-Meta-rater-Cleanliness-30B数据集通过PRRC框架中的Cleanliness维度,精选出30B个高质量标记,为研究人员提供了一个经过严格筛选的文本语料库。这一数据集特别适用于需要高纯净度文本的预训练任务,如语言模型的微调和评估。其精选的文本不仅格式规范,内容完整,且噪声极少,为模型训练提供了理想的数据基础。
实际应用
在实际应用中,SlimPajama-Meta-rater-Cleanliness-30B数据集被广泛用于构建高性能的语言模型。其高质量的文本数据特别适合需要高准确性和流畅性的任务,如机器翻译、文本摘要和对话生成。企业和研究机构可以利用这一数据集,快速训练出在各类下游任务中表现优异的模型,从而提升自然语言处理应用的性能和用户体验。
衍生相关工作
该数据集的推出催生了一系列相关研究,特别是在数据选择和预训练优化领域。基于PRRC框架的研究逐渐成为热点,许多工作开始探索多维度数据选择对模型性能的影响。此外,该数据集的Cleanliness评分方法也被其他研究团队借鉴,用于改进各自的数据筛选流程,进一步推动了高质量数据集的构建和优化。
以上内容由遇见数据集搜集并总结生成



