five

fineweb2-bagaco2

收藏
Hugging Face2026-04-12 更新2026-04-13 收录
下载链接:
https://huggingface.co/datasets/duarteocarmo/fineweb2-bagaco2
下载链接
链接失效反馈
官方服务:
资源简介:
Bagaço2 是一个用于欧洲葡萄牙语预训练的数据集。该数据集基于 CulturaX 的葡萄牙语部分,通过使用 fastText 分类器筛选出 PT-PT 文档,并为每行数据添加了教育评分和内容类别。数据集包含 33M 文档,分布在 460 个 parquet 分片中,总计约 37 GB。数据集的主要特点包括:1) 使用 fastText 分类器进行葡萄牙语变体识别(PT-PT vs PT-BR),保留标签为 `__label__PT_PT`,阈值为 0.7;2) 为每个文档分配教育质量评分,基于 30,000 个标记样本和 Qwen3 235B A22B 模型;3) 将文档分类为 9 个类别(社会、艺术、商业、科学、体育、生活方式、健康、游戏、新闻),基于 3,500 个标记样本和 Gemini 2.5 Flash Lite 模型。数据集适用于文本分类、语言建模和文本评分等任务。
创建时间:
2026-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
在构建欧洲葡萄牙语预训练语料库的背景下,Bagaço2数据集源于对大规模多语言语料库CulturaX的深度加工。其核心构建方法是通过一个经过量化的fastText分类器,以0.7的置信度阈值,从CulturaX的葡萄牙语子集中精准筛选出欧洲葡萄牙语(PT-PT)文本。随后,数据集为每份文档引入了两个维度的元数据:一是基于Qwen3 235B大模型标注的参考数据,通过逻辑回归模型预测的0至5分教育质量评分;二是基于Gemini 2.5 Flash Lite模型标注的参考数据,将文档归类至社会、艺术、商业等九个主题类别。整个流程最终生成了包含3300万份文档、约37GB数据的460个Parquet分片。
特点
作为专注于欧洲葡萄牙语的高质量网络语料库,Bagaço2数据集展现出鲜明的特征。其首要特点是语言纯正性,通过专门的变体识别模型确保了语料的欧洲葡萄牙语属性。其次,数据集超越了原始文本的范畴,为每份文档赋予了精细的结构化标签,包括教育质量评分和内容主题分类,这为下游任务提供了丰富的监督信号。数据规模庞大,覆盖了新闻、科学、体育、生活方式等多元领域,能够较为全面地反映当代欧洲葡萄牙语的网络使用生态。这些特征共同构成了一个兼具规模、质量和丰富元信息的预训练资源。
使用方法
在自然语言处理的应用实践中,Bagaço2数据集主要服务于欧洲葡萄牙语的语言模型预训练。研究人员可直接加载其Parquet格式的分片文件,利用‘text’字段中的原始文本进行无监督的掩码语言建模或因果语言建模训练。同时,数据集提供的‘educational_score’和‘category’等元数据字段,为开发特定领域的分类模型或进行有监督的微调提供了便利。例如,可以利用教育评分筛选高质量语料以优化模型性能,或依据主题分类构建多任务学习框架。其标准化的数据格式确保了与主流机器学习框架的无缝集成,支持大规模分布式训练。
背景与挑战
背景概述
在自然语言处理领域,高质量、大规模且语言特定的预训练数据集是推动语言模型发展的关键基石。fineweb2-bagaco2数据集,又称Bagaço2,由研究人员Duarte O. Carmo于近期构建并发布,专注于欧洲葡萄牙语(PT-PT)的文本资源。该数据集源自多语言网络语料库CulturaX的葡萄牙语部分,通过精细化的过滤与标注流程,旨在为欧洲葡萄牙语的语言模型预训练提供专用语料。其核心研究问题在于解决葡萄牙语变体资源不均衡的现状,特别是针对欧洲葡萄牙语高质量文本的稀缺性,通过集成教育质量评分与内容分类标签,为下游任务如文本分类、主题建模及语言建模提供结构化、信息丰富的训练基础。该数据集的构建不仅丰富了葡萄牙语自然语言处理资源生态,也为研究语言变体差异、教育内容评估及多领域文本分析提供了重要数据支撑。
当前挑战
该数据集致力于应对欧洲葡萄牙语自然语言处理中高质量预训练语料匮乏的核心挑战,具体体现为从混杂的网络文本中精准分离欧洲葡萄牙语变体,并对其教育价值与主题类别进行可靠标注。在构建过程中,首要挑战在于语言变体过滤的准确性,尽管使用了fastText分类器并设定阈值,但葡萄牙语内部方言连续体可能导致边界样本的误判。其次,教育质量评分与内容分类的自动化标注面临数据标注的可靠性问题,依赖大型语言模型生成的参考标签可能存在噪声与偏差,且分类器在少数类别(如低教育评分或‘Science’类别)上表现出的较低F1分数(如0.31或0.57)揭示了类别不平衡与模型泛化能力的局限。此外,从海量原始网络数据中清洗、去重并保持文本质量与多样性,亦是数据工程中的持续性挑战。
常用场景
经典使用场景
在葡萄牙语自然语言处理领域,Bagaço2数据集作为欧洲葡萄牙语的大规模预训练语料库,其经典应用场景集中于语言模型的预训练与微调。该数据集通过精细的过滤与分类流程,确保了语料的语言纯正性与内容多样性,为研究者提供了高质量的文本资源。在构建面向欧洲葡萄牙语的生成式模型或理解模型时,该数据集能够有效支撑模型的底层语言知识学习,尤其在处理特定地域的语言变体和文化语境方面展现出独特价值。
实际应用
在实际应用中,Bagaço2数据集可服务于教育技术、内容推荐与媒体分析等多个领域。例如,基于其教育评分,可以开发智能教育工具以筛选适合不同学习阶段的教学材料;利用其内容分类标签,媒体公司能够自动化组织与归档新闻、艺术或科学类文档。此外,该数据集也为构建面向葡萄牙市场的聊天机器人、搜索引擎优化以及跨语言信息检索系统提供了坚实的语料基础。
衍生相关工作
围绕Bagaço2数据集,已衍生出多项经典研究工作,主要集中在语言模型预训练与分类任务上。例如,基于其PT-PT过滤机制,研究者可开发更精准的葡萄牙语变体识别模型;利用其教育评分标签,可探索文本质量对模型泛化能力的影响。同时,该数据集也支撑了多类别文本分类器的性能优化,以及在低资源语言环境下数据增强与迁移学习策略的验证,为后续的语料库构建与模型评估提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作