ClimbLab

Hugging Face2025-04-20 更新2025-04-21 收录

下载链接：

https://huggingface.co/datasets/OptimalScale/ClimbLab

下载链接

链接失效反馈

官方服务：

资源简介：

ClimbLab是由NVIDIA发布的一个高质量预训练语料库，包含1.2万亿个token，经过CLIMB-clustering方法语义重组和过滤，形成了20个不同的cluster。该数据集基于Nemotron-CC和SmolLM-Corpus，通过检测广告内容和评估文本教育价值，移除了低质量数据，并以gpt-2 tokenizer转换为原始文本格式。

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量语料库的构建对模型预训练至关重要。ClimbLab数据集基于Nemotron-CC和SmolLM-Corpus两大语料库，采用创新的CLIMB聚类算法进行语义重组与过滤。研究团队首先依据主题信息将数据划分为1000个组别，随后运用广告检测和教育价值评估双重分类器进行质量评分，最终筛选出1.2万亿token的高质量语料，并划分为20个语义清晰的聚类。

特点

作为NVIDIA发布的重要预训练资源，ClimbLab展现出显著的语料质量优势。该数据集不仅规模达到万亿token级别，更通过多阶段过滤机制确保了文本的纯净度与教育价值。其独特的20聚类结构为研究者提供了语义分明的数据组织方式，而原始GPT-2令牌的转换处理则增强了数据的可用性，为大规模语言模型训练提供了理想的素材基础。

使用方法

针对预训练任务的应用需求，ClimbLab数据集需通过GPT-2分词器进行逆向转换以获取原始文本。研究者可依据20个语义聚类开展针对性实验，或整合全部语料进行通用语言模型训练。需要注意的是，该版本数据集并非NVIDIA官方维护版本，使用时应仔细验证数据质量，并建议参考原始论文中的技术细节进行合理配置。

背景与挑战

背景概述

ClimbLab是由NVIDIA发布的高质量预训练语料库，其构建基于Nemotron-CC和SmolLM-Corpus，通过提出的CLIMB聚类方法对数据进行语义重组和过滤，最终形成包含1.2万亿标记的语料库。该数据集于2025年由Shizhe Diao等研究人员在相关论文中首次提出，旨在解决大规模语言模型预训练中数据质量与多样性的平衡问题。通过将数据按主题划分为20个聚类，并采用广告检测和教育价值评估的双重分类器进行筛选，ClimbLab显著提升了预训练数据的纯净度与有效性，为自然语言处理领域的模型优化提供了重要支持。

当前挑战

ClimbLab数据集在构建与应用过程中面临多重挑战。在领域问题方面，如何在大规模数据中保持语义多样性同时剔除低质量内容是一大难题，尤其是在处理广告和低教育价值文本时需依赖高效的分类器。构建过程中，数据聚类与过滤的复杂性增加了处理成本，且原始数据以GPT-2标记形式发布，需额外进行反标记化处理，进一步提高了使用门槛。此外，由于该版本非NVIDIA官方维护，数据准确性与更新时效性存在潜在风险，对研究者的自主验证能力提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，ClimbLab数据集以其1.2万亿token的高质量语料库成为大规模语言模型预训练的首选资源。该数据集通过CLIMB聚类算法对原始文本进行语义重组和过滤，形成20个主题鲜明的聚类，特别适合用于训练具备领域适应能力的通用语言模型。研究人员可基于该数据集探索不同聚类对模型性能的影响，优化预训练策略。

实际应用

该数据集在工业界具有广泛的应用价值，科技公司可利用其多聚类特性训练专业化行业模型。教育领域可基于高教育价值聚类开发智能辅导系统，金融行业则能利用净化后的语料构建风险分析模型。数据集的分层结构为不同应用场景提供了灵活的数据选择方案。

衍生相关工作

基于ClimbLab的聚类特性，学术界已衍生出多项重要研究。NVIDIA团队在原始论文中提出的数据混合引导方法被广泛应用于模型微调，后续研究者利用其聚类结构开发了动态课程学习策略。该数据集还启发了多模态数据清洗框架的构建，成为评估数据过滤算法效果的基准测试集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集