SlimPajama-Meta-rater-Professionalism-30B

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/opendatalab/SlimPajama-Meta-rater-Professionalism-30B

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了从SlimPajama-627B语料库中选取的顶部30B个token，这些token是根据PRRC框架中的Professionalism维度进行选择的。每个文档都经过基于ModernBERT的评估器评分，以确保文本的专业知识和专业程度。数据集涵盖了CommonCrawl, C4, GitHub, Books, ArXiv, Wikipedia, StackExchange等领域的文本。

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

在语言模型预训练领域，数据质量筛选是提升模型性能的关键环节。该数据集基于SlimPajama-627B语料库，采用PRRC框架中的专业维度评分体系，通过ModernBERT模型对文本的专业性进行量化评估。构建过程中，研究团队首先利用Llama-3.3-70B-Instruct模型对50万份样本进行专业度标注，随后训练ModernBERT作为评分模型，最终从原始语料中筛选出专业度评分最高的300亿token构成此子集。

特点

作为经过专业维度筛选的高质量预训练数据集，其显著特点体现在文本的专业深度和知识密度上。数据集覆盖CommonCrawl、C4、GitHub等多个领域的专业内容，每份文档均标注0-5分的专业度评分，其中4-5分代表需要高度专业知识的学术论文和技术手册等材料。这种精细的质量分层机制为训练专业领域的语言模型提供了可靠的数据支持。

使用方法

该数据集主要面向需要构建专业领域语言模型的研究者和开发者。使用时可结合预训练框架，将专业度评分作为样本权重或筛选阈值。对于追求模型专业能力的应用场景，建议优先选用4-5分的高专业度文本；而在需要平衡专业性与普适性的情况下，可适当纳入2-3分的中等专业度材料。数据集兼容主流预训练流程，可直接用于模型微调或与其他语料混合训练。

背景与挑战

背景概述

SlimPajama-Meta-rater-Professionalism-30B数据集由OpenDataLab团队于2025年构建，其核心研究问题聚焦于大规模预训练语言模型数据选择的多维度优化。该数据集基于SlimPajama-627B语料库，采用PRRC框架中的专业性维度进行筛选，旨在为语言模型预训练提供更具专业深度的文本数据。研究团队创新性地提出Meta-rater方法，通过ModernBERT模型对文本的专业性进行评分，最终遴选出最具专业价值的30B tokens子集。这一工作显著提升了预训练数据质量评估的自动化水平，为构建领域专业化语言模型提供了重要数据基础。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，如何准确定义和量化文本的专业性程度成为关键难题，特别是需要平衡不同学科领域间的专业标准差异；在构建过程层面，大规模数据标注的可靠性与效率构成显著挑战，研究团队采用Llama-3.3-70B-Instruct进行初始标注，再通过ModernBERT模型进行扩展，这一复杂流程对计算资源和算法设计都提出了极高要求。此外，保持原始语料多样性的同时提升专业性水平，也需要精细的权衡与优化。

常用场景

经典使用场景

在自然语言处理领域，高质量预训练数据的选择对模型性能具有决定性影响。SlimPajama-Meta-rater-Professionalism-30B数据集通过PRRC框架中的专业维度筛选，为研究人员提供了包含30B高专业性标记的精选语料。该数据集特别适用于需要深度技术理解能力的语言模型预训练场景，例如专业领域术语识别、复杂概念建模等任务。其层级化的专业评分机制，使得研究者能够根据具体需求灵活调整训练数据的专业深度。

解决学术问题

该数据集有效解决了预训练数据质量评估的标准化难题。传统方法往往依赖人工标注或简单启发式规则，难以实现大规模数据的一致性评价。通过基于ModernBERT的专业评分模型，该工作建立了可量化的专业知识评估体系，为数据选择提供了客观依据。这种创新方法显著提升了预训练语料的质量控制能力，对改善模型在专业领域的表现具有重要价值，特别是在减少领域适应阶段的微调成本方面展现出独特优势。

衍生相关工作

该数据集的创新选择方法催生了一系列相关研究。Meta-rater框架已被扩展应用于多语言数据筛选，衍生出跨文化适应性的评估维度。部分工作将其与课程学习策略结合，提出了渐进式专业难度训练方案。另有研究借鉴其评分机制，开发了面向特定垂直领域的专业度评估工具，进一步丰富了预训练数据质量控制的方****论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集