limajr/nbr-500-corpus
收藏Hugging Face2025-12-29 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/limajr/nbr-500-corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- pt
license: apache-2.0
size_categories:
- 1M<n<10M
task_categories:
- text-generation
- fill-mask
tags:
- portuguese
- brazilian
- pretrain
- slm
- edge-ai
pretty_name: NBR-500 Corpus
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_examples: 3891783
---
# NBR-500 Corpus
🇧🇷 **Corpus de pré-treinamento para o modelo NBR-500** - Um Small Language Model de 500M parâmetros otimizado para Português Brasileiro.
## 📊 Estatísticas
| Métrica | Valor |
|---------|-------|
| **Documentos** | 3.89M |
| **Tokens** | ~1.5B |
| **Idioma** | Português Brasileiro |
| **Formato** | Parquet |
## 🔍 Pipeline de Processamento
O dataset passou por um rigoroso pipeline de qualidade baseado no [SmolLM Training Playbook](https://github.com/huggingface/smollm):
1. **Filtragem de Qualidade**
- Remoção de textos curtos (< 100 caracteres)
- Remoção de conteúdo repetitivo
- Filtragem de spam e baixa qualidade
2. **Detecção de Idioma**
- FastText LID para garantir 100% português
- Threshold de confiança > 0.8
3. **Deduplicação**
- MinHash LSH (datasketch)
- Remoção de near-duplicates
## 📁 Fontes
- Wikipedia PT-BR
- CulturaX Portuguese
- OSCAR Portuguese
- Outros corpora brasileiros
## 🚀 Uso
```python
from datasets import load_dataset
dataset = load_dataset("limajr/nbr-500-corpus", split="train")
for example in dataset:
print(example["text"][:200])
break
```
## 🎯 Propósito
Este corpus foi criado especificamente para treinar o **NBR-500**, um modelo de linguagem pequeno e eficiente para:
- ✅ Execução em dispositivos de borda (Edge AI)
- ✅ Aplicações em Português Brasileiro
- ✅ Baixa latência e consumo de memória
- ✅ Quantização para GGUF (Q4, Q8)
## 📦 Modelo Relacionado
- **Modelo:** [limajr/nbr-500](https://huggingface.co/limajr/nbr-500)
- **Tokenizer:** BPE nativo com 32k vocabulário (46% mais eficiente que GPT-2 para PT-BR)
## 📜 Licença
Apache 2.0
## 🙏 Créditos
Baseado nas práticas do SmolLM Training Playbook da HuggingFace.
提供机构:
limajr



