limajr/nbr-500-corpus

Name: limajr/nbr-500-corpus
Creator: limajr
Published: 2025-12-29 02:50:55
License: 暂无描述

Hugging Face2025-12-29 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/limajr/nbr-500-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - pt license: apache-2.0 size_categories: - 1M<n<10M task_categories: - text-generation - fill-mask tags: - portuguese - brazilian - pretrain - slm - edge-ai pretty_name: NBR-500 Corpus dataset_info: features: - name: text dtype: string splits: - name: train num_examples: 3891783 --- # NBR-500 Corpus 🇧🇷 **Corpus de pré-treinamento para o modelo NBR-500** - Um Small Language Model de 500M parâmetros otimizado para Português Brasileiro. ## 📊 Estatísticas | Métrica | Valor | |---------|-------| | **Documentos** | 3.89M | | **Tokens** | ~1.5B | | **Idioma** | Português Brasileiro | | **Formato** | Parquet | ## 🔍 Pipeline de Processamento O dataset passou por um rigoroso pipeline de qualidade baseado no [SmolLM Training Playbook](https://github.com/huggingface/smollm): 1. **Filtragem de Qualidade** - Remoção de textos curtos (< 100 caracteres) - Remoção de conteúdo repetitivo - Filtragem de spam e baixa qualidade 2. **Detecção de Idioma** - FastText LID para garantir 100% português - Threshold de confiança > 0.8 3. **Deduplicação** - MinHash LSH (datasketch) - Remoção de near-duplicates ## 📁 Fontes - Wikipedia PT-BR - CulturaX Portuguese - OSCAR Portuguese - Outros corpora brasileiros ## 🚀 Uso ```python from datasets import load_dataset dataset = load_dataset("limajr/nbr-500-corpus", split="train") for example in dataset: print(example["text"][:200]) break ``` ## 🎯 Propósito Este corpus foi criado especificamente para treinar o **NBR-500**, um modelo de linguagem pequeno e eficiente para: - ✅ Execução em dispositivos de borda (Edge AI) - ✅ Aplicações em Português Brasileiro - ✅ Baixa latência e consumo de memória - ✅ Quantização para GGUF (Q4, Q8) ## 📦 Modelo Relacionado - **Modelo:** [limajr/nbr-500](https://huggingface.co/limajr/nbr-500) - **Tokenizer:** BPE nativo com 32k vocabulário (46% mais eficiente que GPT-2 para PT-BR) ## 📜 Licença Apache 2.0 ## 🙏 Créditos Baseado nas práticas do SmolLM Training Playbook da HuggingFace.

提供机构：

limajr

5,000+

优质数据集

54 个

任务类型

进入经典数据集