ClassiCC-PT

Name: ClassiCC-PT
Creator: Institute of Computing, University of Campinas, Maritaca AI
Published: 2025-09-11 01:58:23
License: 暂无描述

arXiv2025-09-11 更新2025-09-12 收录

下载链接：

https://commoncrawl.org/

下载链接

链接失效反馈

官方服务：

资源简介：

ClassiCC-PT是一个包含120B个Tokens的葡萄牙语大型网络语料库，由Common Crawl项目的大规模网络爬取构建而成。数据集通过多种预处理和过滤技术进行优化，包括文本清洗、去重和内容分类，旨在构建高质量、语言特定的数据集。该数据集的创建过程包括从HTML页面中提取文本，使用基于规则和神经网络的过滤方法进行数据选择，并通过持续预训练的方法来提升模型在目标语言上的性能。ClassiCC-PT数据集的应用领域是大型语言模型（LLMs）的构建和优化，旨在解决LLMs在非英语语言上的性能提升问题。

ClassiCC-PT is a large-scale Portuguese web corpus containing 120 billion tokens, constructed from large-scale web crawls of the Common Crawl project. The dataset is optimized via multiple preprocessing and filtering techniques, including text cleaning, deduplication, and content classification, aiming to build a high-quality, language-specific corpus. The dataset's creation pipeline includes extracting text from HTML pages, adopting rule-based and neural network-based filtering methods for data selection, and applying continuous pre-training to enhance model performance on the target language. The application domain of the ClassiCC-PT dataset is the construction and optimization of large language models (LLMs), with the objective of resolving the performance enhancement issues of LLMs on non-English languages.

提供机构：

Institute of Computing, University of Campinas, Maritaca AI

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

ClassiCC-PT数据集的构建始于Common Crawl的网络快照，通过CLD2分类器筛选葡萄牙语页面，并利用Trafilatura库从原始HTML中提取高质量文本内容。随后采用Minhash算法进行语料库内去重，有效消除冗余文档。在过滤阶段，结合C4和MassiveWeb的规则化筛选方法，并创新性地引入基于BERTimbau架构的神经网络分类器，专门针对教育内容、STEM领域及有害信息进行精细化标注，最终形成包含120B标记的高质量葡萄牙语语料库。

特点

该数据集的核心特征体现在其多维度质量增强机制上：通过语言特异性过滤管道确保语料纯净度，集成教育价值、STEM相关性和毒性内容的三元分类体系，为每个文档提供细粒度质量评分。数据规模达到126B标记，覆盖116M个文档，且每个Common Crawl快照的葡萄牙语占比均经过精确统计。与现有工业级语料库相比，ClassiCC-PT在保持规模竞争力的同时，通过科学的处理流程实现了更优的语言一致性和内容相关性。

使用方法

ClassiCC-PT专为葡萄牙语大语言模型的持续预训练设计，支持从英语基础模型向目标语言的迁移学习。使用者可通过Hugging Face平台获取数据集，并依据文档分类评分进行有条件采样，例如优先选择教育评分高于阈值的样本以优化训练效果。该数据集已成功应用于Curió 1.1B模型的训练，在Poeta基准测试中展现出27.1的NPM分数，显著优于从零开始训练的同类模型，验证了其在跨语言迁移场景下的有效性。

背景与挑战

背景概述

ClassiCC-PT数据集由坎皮纳斯大学与Maritaca AI联合研发，于2025年正式发布，旨在解决葡萄牙语大规模预训练语料稀缺的核心问题。作为全球第五大语言，葡萄牙语在自然语言处理领域长期面临数据资源不足的挑战。该数据集通过系统化处理Common Crawl网络快照，构建了包含1200亿标记的高质量语料库，显著提升了葡萄牙语大语言模型的性能表现。其创新性体现在语言特异性过滤管道设计，包括教育内容、STEM领域及毒性文本的分类器开发，为多语言模型研究提供了重要基准。

当前挑战

该数据集首要挑战在于解决非英语语言模型训练中的语料质量不平衡问题，需克服多语言数据中葡萄牙语代表性不足的困境。构建过程中面临网络原始文本的噪声过滤难题，包括HTML结构噪声、重复文档剔除及低质量内容识别。此外，语言特异性分类器的开发需克服标注一致性难题，特别是在教育价值和STEM内容评估方面需建立可靠的量化标准。最后，在持续预训练范式下需平衡英语基础模型与目标语言适配间的知识迁移效率。

常用场景

经典使用场景

在葡萄牙语自然语言处理研究中，ClassiCC-PT数据集被广泛应用于大规模语言模型的持续预训练场景。该数据集通过从Common Crawl快照中提取葡萄牙语网页内容，并经过多级过滤和清理流程，为研究者提供了高质量的训练语料。其典型应用包括将英语基础模型通过跨语言持续预训练适配到葡萄牙语语境，以及在低资源语言环境下构建具有竞争力的语言模型。

实际应用

在实际应用层面，ClassiCC-PT为葡萄牙语地区的智能客服、教育科技和内容审核系统提供了核心数据支撑。基于该数据集训练的Curió 1.1B模型在巴西大学入学考试（ENEM）和各类文本分类任务中展现出优异性能，被广泛应用于巴西教育评估、新闻分类和社交媒体分析等场景。其构建方法还可推广到其他罗曼语系语言，为构建区域性语言模型提供了可行范式。

衍生相关工作

该数据集催生了多个重要的衍生研究，包括基于BERTimbau嵌入的教育内容分类器、STEM专业文档筛选器和毒性内容检测器。这些工作为葡萄牙语文本质量评估建立了新的技术标准。同时启发了Gigaverbo等后续语料库的构建方法，并推动了Tucano、Sabiá等葡萄牙语大模型的发展。其数据处理管道还被Adapted C4规则和Minhash去重技术等后续研究所采纳和改进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集