five

tiagoloeblein/CrawlPT_dedup_Cleaned

收藏
Hugging Face2025-11-27 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/tiagoloeblein/CrawlPT_dedup_Cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
📚 CrawlPT Clean — High-Quality Portuguese Corpus Versão limpa, filtrada e refinada do dataset CrawlPT_dedup 🧼 Visão Geral Este repositório fornece uma versão limpa, filtrada e padronizada do dataset: ➡️ eduagarcia/CrawlPT_dedup https://huggingface.co/datasets/eduagarcia/CrawlPT_dedup A limpeza tem como objetivo criar um corpus de alta qualidade para: pré-treino contínuo de modelos LLM (Qwen, Mistral, LLaMA, Phi etc.) melhora de fluência e coerência em português pesquisas em NLP geração de modelos PT-BR ajustados e estáveis O dataset original contém ruído (HTML, JS, spam, texto truncado, pornografia, idiomas misturados). Esta versão remove esses artefatos mantendo somente texto português coerente e utilizável. 🧹 Pipeline de Limpeza O processo aplicado neste dataset envolve diversas etapas, cada uma pensada para maximizar a qualidade final. ✔ 1. Detecção de língua (fastText lid.176) Somente textos classificados como PT ≥ 70% são mantidos. Remove inglês, espanhol, alemão, páginas técnicas globais etc. ✔ 2. Filtragem de conteúdo proibido Linhas inteiras são removidas quando contêm: palavras-chave pornográficas spam explícito (bet365, promoções, apostas, "cadastre-se") trechos de código (JS, HTML, placeholders, tokens aleatórios) páginas de anúncio, propaganda, rastros de scrap lixo como }, ), append(, scripts minimizados ✔ 3. Normalização do texto remoção de espaços duplicados remoção de caracteres inválidos (Â�, �, ✓ etc.) limpeza de início e fim colapso de linhas muito curtas/inúteis remoção de frases truncadas claramente incompletas ✔ 4. Geração de dois datasets Este repositório inclui dois Parquet diferentes, para usos distintos: 🗂️ Arquivos Incluídos 1) crawlPT_clean_full.parquet 🔹 Mantém todas as colunas originais: id, source, orig_id, text 🔹 Somente o campo text é limpo e filtrado 🔹 Ideal para tarefas que precisam de metadados (NLP, estatísticas, análise) 2) crawlPT_clean_split.parquet 🔹 Contém apenas uma coluna: text 🔹 O texto é automaticamente segmentado em frases 🔹 Pensado para pré-treino e fluência de modelos 🔹 Gera muito mais linhas, perfeitas para language modeling 📊 Estatísticas Etapa Linhas Dataset bruto Após limpeza (full) Após split de frases 🧠 Motivação Português ainda carece de datasets massivos, limpos e de qualidade para pré-treinar modelos pequenos e médios. A maioria dos datasets tem: HTML misturado tokens randômicos pornografia JS e CSS textos multilíngues conteúdo truncado ruído de scraping O objetivo aqui é criar um corpus realmente útil, simples e confiável para qualquer modelo. 📥 Como carregar from datasets import load_dataset ds_full = load_dataset("tiagoloeblein/CrawlPT_dedup_Cleaned", split="full") ds_split = load_dataset("tiagoloeblein/CrawlPT_dedup_Cleaned", split="split") 🛠️ Script de limpeza utilizado O script completo usado para gerar este dataset (com detecção de língua, filtros, limpeza e geração dos dois Parquet) está disponível neste repositório. 📜 Licença & Direitos Este dataset é derivado de: ➡️ eduagarcia/CrawlPT_dedup https://huggingface.co/datasets/eduagarcia/CrawlPT_dedup Você deve manter esta referência se derivar, modificar ou usar comercialmente este corpus. Este repositório contém apenas o resultado da limpeza automatizada e não contém novos dados. 🔖 Citação do dataset original @inproceedings{garcia-etal-2024-robertalexpt, title = "{R}o{BERT}a{L}ex{PT}: A Legal {R}o{BERT}a Model pretrained with deduplication for {P}ortuguese", author = "Garcia, Eduardo A. S. and Silva, Nadia F. F. and Siqueira, Felipe and Albuquerque, Hidelberg O. and Gomes, Juliana R. S. and Souza, Ellen and Lima, Eliomar A.", booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese", year = "2024" } 🙏 Créditos Coleta e deduplicação: CEIA – UFG Limpeza, filtragem e organização: Tiago Monteiro Loeblein
提供机构:
tiagoloeblein
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作