ClassiCC-PT

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/ClassiCC-Corpus/ClassiCC-PT

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含文本数据的训练集，每个样本都包含文本内容、唯一标识符、链接以及与文本内容相关的教育分数、ステム分数和毒性分数。数据集的总大小为285,576,324,067字节，共有96,975,210个样本。

This is a training dataset containing text data. Each sample includes text content, a unique identifier, a hyperlink, as well as education scores, STEM scores, and toxicity scores associated with the text content. The total size of the dataset is 285,576,324,067 bytes, and it contains a total of 96,975,210 samples.

创建时间：

2025-08-09

搜集汇总

数据集介绍

构建方式

在构建ClassiCC-PT数据集过程中，研究团队从Common Crawl的三个快照中系统性地提取了葡萄牙语网络文本。通过Trafilatura工具进行HTML到文本的转换，有效去除了模板内容并保留了核心文本信息。采用MinHash算法实施语料内去重处理，显著降低了约40%的冗余数据。特别值得关注的是，团队开发了基于BERTimbau架构的神经网络分类器，通过GPT-4o标注的葡萄牙语数据进行训练，实现了对教育内容、STEM领域内容和有害内容的三维精细分类。

特点

该数据集最显著的特征在于其多维度的质量评估体系，每个文本样本都配备了精确的教育价值评分、STEM专业度评分和毒性内容评分。这种结构化设计为研究者提供了细粒度的数据筛选能力，特别适合针对不同应用场景的训练需求。数据集规模达到约1.06亿个文档和1250亿个词汇标记，其语言纯正性和内容质量在葡萄牙语语料库中表现突出，为葡萄牙语大语言模型的持续预训练提供了优质资源。

使用方法

研究人员可通过Hugging Face数据集库直接加载ClassiCC-PT语料，使用标准的load_dataset接口即可访问全部训练数据。每个数据样本包含原始文本内容及其对应的元数据信息，包括来源标识、URL链接以及三个维度的质量评分。这些结构化信息使得用户能够根据具体任务需求灵活筛选数据，例如通过设定教育评分阈值获取高质量教育文本，或通过毒性评分过滤有害内容。该数据集特别适用于葡萄牙语语言模型的持续预训练和领域适应性训练。

背景与挑战

背景概述

随着多语言自然语言处理技术的深入发展，葡萄牙语作为全球重要语言之一，在大型语言模型训练中面临高质量语料稀缺的困境。ClassiCC-PT数据集由研究团队于2023年基于Common Crawl快照构建，专门针对葡萄牙语继续预训练需求设计。该数据集通过精密的多阶段过滤流程，从原始网页数据中提取出约120B高质量葡语词汇，显著提升了英语预训练模型在葡语任务上的迁移性能。其创新性的神经分类器标注体系为低资源语言模型训练设立了新标准，对卢西塔尼亚语系自然语言处理研究产生了深远影响。

当前挑战

该数据集核心挑战在于解决葡萄牙语数字资源分散性与质量不均问题，传统方法难以从海量网络文本中分离符合语言模型训练要求的优质内容。构建过程中面临多重技术障碍：Common Crawl原始数据仅2%包含葡语标签，需开发高精度语言识别管道；网页去重过程中采用MinHash算法消除40%重复内容，计算复杂度极高；特别设计的BERTimbau分类器需要依赖GPT-4o标注数据进行训练，在毒性内容识别与教育价值评估方面存在标注一致性难题。最终形成的三维度评分体系需平衡语义完整性与领域特异性之间的张力。

常用场景

经典使用场景

在自然语言处理领域，大规模语料库的质量直接影响模型性能。ClassiCC-PT作为葡萄牙语专用训练数据集，其最经典的应用场景在于跨语言模型的持续预训练过程。研究者通过该数据集将英语预训练模型适配到葡萄牙语语境，有效解决了低资源语言模型训练中的语料稀缺问题。该数据集经过多层次过滤和分类标注，为模型提供了高质量、多样化的葡萄牙语文本表示。

实际应用

在实际应用层面，ClassiCC-PT为葡萄牙语人工智能应用提供了坚实基础。基于该数据集训练的Curió 1.1B模型在葡萄牙语基准测试中表现出色，可广泛应用于智能客服、教育科技、科技文献处理等场景。其毒性内容过滤功能特别适用于构建安全的对话系统，而教育内容分类则助力于个性化学习平台的开发，为葡萄牙语地区的数字化建设提供了关键技术支撑。

衍生相关工作

该数据集的发布催生了多项重要研究工作，其中最突出的是Curió系列语言模型的开发。研究者基于ClassiCC-PT进行了系统的持续预训练实验，比较了不同语料库对模型性能的影响。这些工作深入探索了跨语言迁移的机制，为其他低资源语言的模型适配提供了可复现的范式。相关研究还推动了葡萄牙语自然语言处理基准测试体系的完善，形成了完整的技术生态链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集