jinilson/Brasil
收藏Hugging Face2026-04-04 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/jinilson/Brasil
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- pt
license: apache-2.0
task_categories:
- text-generation
- fill-mask
task_ids:
- language-modeling
- masked-language-modeling
tags:
- portuguese
- brazilian-portuguese
- literature
- pre-training
- nlp
- classic-literature
- gutenberg
pretty_name: Brasil - Textos Literários Brasileiros
size_categories:
- 1M<n<10M
---
# 🇧🇷 Brasil — Textos Literários Brasileiros
Dataset de textos em **português brasileiro** para pré-treinamento e fine-tuning de modelos de linguagem. O corpus é composto por obras literárias clássicas brasileiras em domínio público, com foco na riqueza linguística e cultural do Brasil.
## 📚 Conteúdo atual
| Obra | Autor | Ano | Palavras (aprox.) |
|---|---|---|---|
| Obra A | Autor Brasileiro 1 | 1880 | ~80.000 |
| Obra B | Autor Brasileiro 2 | 1902 | ~65.000 |
| Obra C | Autor Brasileiro 3 | 1925 | ~90.000 |
> 📌 Mais obras serão adicionadas progressivamente.
## 📂 Estrutura dos arquivos
```
Brasil/
├── data/
│ ├── obra_a_pretrain_hf.jsonl
│ ├── obra_b_pretrain_hf.jsonl
│ └── obra_c_pretrain_hf.jsonl
├── metadata.json
└── README.md
```
Cada linha do `.jsonl` segue o formato padrão para treinamento de linguagem:
```json
{"text": "Era uma vez, nas margens do rio grande, um homem que carregava consigo o peso do sertão..."}
```
## 🚀 Como usar
```python
from datasets import load_dataset
ds = load_dataset("jinilson/Brasil")
print(ds["train"][0])
```
Para treinamento causal (GPT-style):
```python
from datasets import load_dataset
from transformers import AutoTokenizer
ds = load_dataset("jinilson/Brasil")
tokenizer = AutoTokenizer.from_pretrained("seu-modelo-base")
def tokenize(example):
return tokenizer(example["text"], truncation=True, max_length=512)
tokenized = ds.map(tokenize, batched=True)
```
## 🎯 Casos de uso
- ✅ **Pré-treinamento** de modelos de linguagem em português
- ✅ **Continual pre-training** — continuar treinando modelos já existentes com dados PT-BR
- ✅ **Fine-tuning** para geração de texto literário em português
- ✅ **Embeddings** e modelos de representação semântica
- ✅ **Benchmarking** de modelos em português clássico e moderno
## 📊 Estatísticas
| Métrica | Valor |
|---|---|
| Total de obras | 3 |
| Total de palavras | ~235.000 |
| Idioma | Português Brasileiro (pt-BR) |
| Período histórico | Século XIX – XX |
| Formato | JSONL (uma entrada por linha) |
## 🔤 Características linguísticas
- Português brasileiro em diferentes registros históricos
- Vocabulário rico e variado da literatura clássica
- Obras em domínio público — sem restrições de uso
- Texto limpo, sem ruído de OCR
## 📜 Licença e direitos
Todas as obras incluídas neste dataset são de **domínio público** no Brasil e internacionalmente. O dataset em si é disponibilizado sob licença **Apache 2.0**.
Fonte dos textos: [Project Gutenberg](https://www.gutenberg.org/)
## 🤝 Contribuições
Quer adicionar mais obras brasileiras? Abra uma issue ou pull request!
Sugestões de obras para incluir:
- Dom Casmurro — Machado de Assis
- Memórias Póstumas de Brás Cubas — Machado de Assis
- O Cortiço — Aluísio Azevedo
- Iracema — José de Alencar
- Os Sertões — Euclides da Cunha
## ✍️ Citação
```bibtex
@dataset{jinilson_brasil_2026,
author = {jinilson},
title = {Brasil — Textos Literários Brasileiros},
year = {2026},
publisher = {Hugging Face},
url = {https://huggingface.co/datasets/jinilson/Brasil}
}
```
提供机构:
jinilson



