five

limajr/nbr-500-corpus

收藏
Hugging Face2025-12-29 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/limajr/nbr-500-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - pt license: apache-2.0 size_categories: - 1M<n<10M task_categories: - text-generation - fill-mask tags: - portuguese - brazilian - pretrain - slm - edge-ai pretty_name: NBR-500 Corpus dataset_info: features: - name: text dtype: string splits: - name: train num_examples: 3891783 --- # NBR-500 Corpus 🇧🇷 **Corpus de pré-treinamento para o modelo NBR-500** - Um Small Language Model de 500M parâmetros otimizado para Português Brasileiro. ## 📊 Estatísticas | Métrica | Valor | |---------|-------| | **Documentos** | 3.89M | | **Tokens** | ~1.5B | | **Idioma** | Português Brasileiro | | **Formato** | Parquet | ## 🔍 Pipeline de Processamento O dataset passou por um rigoroso pipeline de qualidade baseado no [SmolLM Training Playbook](https://github.com/huggingface/smollm): 1. **Filtragem de Qualidade** - Remoção de textos curtos (< 100 caracteres) - Remoção de conteúdo repetitivo - Filtragem de spam e baixa qualidade 2. **Detecção de Idioma** - FastText LID para garantir 100% português - Threshold de confiança > 0.8 3. **Deduplicação** - MinHash LSH (datasketch) - Remoção de near-duplicates ## 📁 Fontes - Wikipedia PT-BR - CulturaX Portuguese - OSCAR Portuguese - Outros corpora brasileiros ## 🚀 Uso ```python from datasets import load_dataset dataset = load_dataset("limajr/nbr-500-corpus", split="train") for example in dataset: print(example["text"][:200]) break ``` ## 🎯 Propósito Este corpus foi criado especificamente para treinar o **NBR-500**, um modelo de linguagem pequeno e eficiente para: - ✅ Execução em dispositivos de borda (Edge AI) - ✅ Aplicações em Português Brasileiro - ✅ Baixa latência e consumo de memória - ✅ Quantização para GGUF (Q4, Q8) ## 📦 Modelo Relacionado - **Modelo:** [limajr/nbr-500](https://huggingface.co/limajr/nbr-500) - **Tokenizer:** BPE nativo com 32k vocabulário (46% mais eficiente que GPT-2 para PT-BR) ## 📜 Licença Apache 2.0 ## 🙏 Créditos Baseado nas práticas do SmolLM Training Playbook da HuggingFace.
提供机构:
limajr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作