tiagoloeblein/CrawlPT_dedup_Cleaned
收藏Hugging Face2025-11-27 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/tiagoloeblein/CrawlPT_dedup_Cleaned
下载链接
链接失效反馈官方服务:
资源简介:
📚 CrawlPT Clean — High-Quality Portuguese Corpus
Versão limpa, filtrada e refinada do dataset CrawlPT_dedup
🧼 Visão Geral
Este repositório fornece uma versão limpa, filtrada e padronizada do dataset:
➡️ eduagarcia/CrawlPT_dedup
https://huggingface.co/datasets/eduagarcia/CrawlPT_dedup
A limpeza tem como objetivo criar um corpus de alta qualidade para:
pré-treino contínuo de modelos LLM (Qwen, Mistral, LLaMA, Phi etc.)
melhora de fluência e coerência em português
pesquisas em NLP
geração de modelos PT-BR ajustados e estáveis
O dataset original contém ruído (HTML, JS, spam, texto truncado, pornografia, idiomas misturados).
Esta versão remove esses artefatos mantendo somente texto português coerente e utilizável.
🧹 Pipeline de Limpeza
O processo aplicado neste dataset envolve diversas etapas, cada uma pensada para maximizar a qualidade final.
✔ 1. Detecção de língua (fastText lid.176)
Somente textos classificados como PT ≥ 70% são mantidos.
Remove inglês, espanhol, alemão, páginas técnicas globais etc.
✔ 2. Filtragem de conteúdo proibido
Linhas inteiras são removidas quando contêm:
palavras-chave pornográficas
spam explícito (bet365, promoções, apostas, "cadastre-se")
trechos de código (JS, HTML, placeholders, tokens aleatórios)
páginas de anúncio, propaganda, rastros de scrap
lixo como }, ), append(, scripts minimizados
✔ 3. Normalização do texto
remoção de espaços duplicados
remoção de caracteres inválidos (Â�, �, ✓ etc.)
limpeza de início e fim
colapso de linhas muito curtas/inúteis
remoção de frases truncadas claramente incompletas
✔ 4. Geração de dois datasets
Este repositório inclui dois Parquet diferentes, para usos distintos:
🗂️ Arquivos Incluídos
1) crawlPT_clean_full.parquet
🔹 Mantém todas as colunas originais:
id, source, orig_id, text
🔹 Somente o campo text é limpo e filtrado
🔹 Ideal para tarefas que precisam de metadados (NLP, estatísticas, análise)
2) crawlPT_clean_split.parquet
🔹 Contém apenas uma coluna: text
🔹 O texto é automaticamente segmentado em frases
🔹 Pensado para pré-treino e fluência de modelos
🔹 Gera muito mais linhas, perfeitas para language modeling
📊 Estatísticas
Etapa Linhas
Dataset bruto
Após limpeza (full)
Após split de frases
🧠 Motivação
Português ainda carece de datasets massivos, limpos e de qualidade para pré-treinar modelos pequenos e médios.
A maioria dos datasets tem:
HTML misturado
tokens randômicos
pornografia
JS e CSS
textos multilíngues
conteúdo truncado
ruído de scraping
O objetivo aqui é criar um corpus realmente útil, simples e confiável para qualquer modelo.
📥 Como carregar
from datasets import load_dataset
ds_full = load_dataset("tiagoloeblein/CrawlPT_dedup_Cleaned", split="full")
ds_split = load_dataset("tiagoloeblein/CrawlPT_dedup_Cleaned", split="split")
🛠️ Script de limpeza utilizado
O script completo usado para gerar este dataset (com detecção de língua, filtros, limpeza e geração dos dois Parquet) está disponível neste repositório.
📜 Licença & Direitos
Este dataset é derivado de:
➡️ eduagarcia/CrawlPT_dedup
https://huggingface.co/datasets/eduagarcia/CrawlPT_dedup
Você deve manter esta referência se derivar, modificar ou usar comercialmente este corpus.
Este repositório contém apenas o resultado da limpeza automatizada e não contém novos dados.
🔖 Citação do dataset original
@inproceedings{garcia-etal-2024-robertalexpt,
title = "{R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese",
author = "Garcia, Eduardo A. S. and
Silva, Nadia F. F. and
Siqueira, Felipe and
Albuquerque, Hidelberg O. and
Gomes, Juliana R. S. and
Souza, Ellen and
Lima, Eliomar A.",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
year = "2024"
}
🙏 Créditos
Coleta e deduplicação: CEIA – UFG
Limpeza, filtragem e organização: Tiago Monteiro Loeblein
提供机构:
tiagoloeblein



