bratao/corpus-ptbr-v1

Name: bratao/corpus-ptbr-v1
Creator: bratao
Published: 2026-05-01 02:37:41
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/bratao/corpus-ptbr-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Corpus PT-BR v1是一个巴西葡萄牙语语料库，包含840万文档和63亿标记，用于大型语言模型（LLM）的预训练和微调。该数据集结合了经过SBERT质量过滤的真实数据和由多种高质量LLMs生成的合成数据，以增强风格、词汇和论述多样性。真实数据来源于公共数据集如Common Crawl（C4）和FineWeb2的葡萄牙语子集，而合成数据则通过多种LLM生成，包括Qwen、DeepSeek、Llama等模型，并覆盖了多种文本风格和提示。数据集还提供了详细的统计信息、使用方法（如加载和过滤数据）、数据处理流程（如质量过滤和去重）以及许可证信息。

Corpus PT-BR v1 is a Brazilian Portuguese corpus with 8.4 million documents and 6.3 billion tokens for pre-training and fine-tuning LLMs. It combines curated real data with a synthetic layer generated by multiple high-quality LLMs to enhance stylistic, lexical, and discursive diversity. The real data comes from public sources like Common Crawl (C4) and FineWeb2s Portuguese subsets, while the synthetic data is generated by various LLMs (e.g., Qwen, DeepSeek, Llama) using diverse text styles and prompts. The dataset includes detailed statistics, usage examples (e.g., loading and filtering data), processing pipelines (e.g., quality filtering and deduplication), and licensing information.

提供机构：

bratao

搜集汇总

数据集介绍

构建方式

该数据集通过融合真实网络爬取数据与多样化的合成文本构建而成。真实子集源自经过SBERT质量过滤的C4与FineWeb2葡萄牙语子集，剔除了低质与噪声内容。合成子集则利用多个高性能大型语言模型（如Qwen 2.5、DeepSeek V3、Llama 3等），通过精心设计的21种角色提示与20种文本风格，在本地GPU与API混合推理模式下批量生成，旨在最大化语料的词汇、句法与语体多样性。最终对所有文档执行MD5去重、长度过滤及格式统一化，并以Parquet格式存储。

使用方法

用户可通过Hugging Face Datasets库便捷加载该语料。加载整个训练集后，依据'subset'字段可分离真实与合成数据，或根据'source'字段筛选特定来源（如C4或FineWeb2）。对于大规模场景，推荐启用流式加载模式以避免内存瓶颈。数据集原生支持文本生成、掩码填充、文本分类、特征提取及句子相似度等多种自然语言处理任务，适用于从语言模型预训练到领域微调的全流程训练需求。

背景与挑战

背景概述

在自然语言处理领域，高质量、大规模且语言多样化的预训练语料库是推动大语言模型发展的基石。针对巴西葡萄牙语这一重要语言资源相对匮乏的现状，Gabriel Yogi（MadrasLe）于近期发布了Corpus PT-BR v1数据集。该数据集包含约8.4百万文档、63亿词元，由真实网络爬虫数据（源于C4与FineWeb2）以及通过多款大语言模型（如Qwen、DeepSeek、Llama 3等）生成的合成文本构成，旨在为巴西葡萄牙语的LLM预训练与微调提供丰富且风格多样的语料。其创新的SBERT质量过滤流水线和多模型合成策略，为低资源语言的数据构建树立了新范式，对推动葡萄牙语自然语言处理研究具有重要意义。

当前挑战

该数据集面临的核心挑战在于解决领域问题与构建过程的双重复杂性。首先，巴西葡萄牙语的网络文本存在大量噪声、低质量内容和单一风格局限，影响大语言模型的泛化能力与生成质量；而合成数据虽扩展了风格多样性，却可能引入事实性幻觉和模型固有偏差。其次，构建过程中需克服海量数据的高昂标注成本：人工标注不可行，采用LLM-as-a-Judge自动标注虽高效，但依赖模型自身能力可能引入系统性偏见；同时，合成数据的生成需协调多种模型及API接口，涉及显著的计算开销与成本控制难题。此外，跨源数据的去重、归一化与版权合规性也是需审慎处理的挑战。

常用场景

经典使用场景

在自然语言处理领域，该数据集主要用于葡萄牙语大语言模型的预训练与微调，既可作为基础训练语料，也可用于填充掩码、文本分类、特征提取及句子相似度等下游任务。其混合架构融合了经过质量筛选的真实网络爬取数据（来自C4与FineWeb2子集）与多模型生成的高多样性合成数据，为研究者提供了兼具规模与语言多样性的训练资源。研究者可直接加载完整语料库，或按来源与子集进行灵活筛选，适应从零开始预训练到特定任务微调的多层次需求。

解决学术问题

该数据集有效缓解了葡萄牙语大模型训练中高质量语料稀缺的核心难题。真实网络数据虽规模庞大但充斥噪声，而纯粹合成数据又缺乏自然分布——此数据集通过SBERT质量过滤器对真实数据进行精细筛选，同时利用多个顶级多语言大模型生成覆盖20余种文本风格的合成数据，实现了质量与多样性的平衡。这一策略为低资源语言的大规模语料构建提供了可复现的范式，显著推动了葡萄牙语NLP研究从依赖翻译语料向自主高质量预训练的跨越。

实际应用

在实际应用中，该数据集可直接支撑巴西葡萄牙语商业级对话系统的开发，如智能客服、法律文书摘要及教育辅导工具。其合成子集包含模拟社交媒体讨论、播客访谈、专业教程等多场景文本，有助于训练模型理解巴西本土的语用习惯与文化表达。同时，数据集中标注了来源与子集字段，便于企业按合规要求追溯数据源，从而在遵守开源许可的前提下，将其集成至面向葡萄牙语用户的定制化语言模型中。

数据集最近研究