five

jinilson/Brasil

收藏
Hugging Face2026-04-04 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/jinilson/Brasil
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - pt license: apache-2.0 task_categories: - text-generation - fill-mask task_ids: - language-modeling - masked-language-modeling tags: - portuguese - brazilian-portuguese - literature - pre-training - nlp - classic-literature - gutenberg pretty_name: Brasil - Textos Literários Brasileiros size_categories: - 1M<n<10M --- # 🇧🇷 Brasil — Textos Literários Brasileiros Dataset de textos em **português brasileiro** para pré-treinamento e fine-tuning de modelos de linguagem. O corpus é composto por obras literárias clássicas brasileiras em domínio público, com foco na riqueza linguística e cultural do Brasil. ## 📚 Conteúdo atual | Obra | Autor | Ano | Palavras (aprox.) | |---|---|---|---| | Obra A | Autor Brasileiro 1 | 1880 | ~80.000 | | Obra B | Autor Brasileiro 2 | 1902 | ~65.000 | | Obra C | Autor Brasileiro 3 | 1925 | ~90.000 | > 📌 Mais obras serão adicionadas progressivamente. ## 📂 Estrutura dos arquivos ``` Brasil/ ├── data/ │ ├── obra_a_pretrain_hf.jsonl │ ├── obra_b_pretrain_hf.jsonl │ └── obra_c_pretrain_hf.jsonl ├── metadata.json └── README.md ``` Cada linha do `.jsonl` segue o formato padrão para treinamento de linguagem: ```json {"text": "Era uma vez, nas margens do rio grande, um homem que carregava consigo o peso do sertão..."} ``` ## 🚀 Como usar ```python from datasets import load_dataset ds = load_dataset("jinilson/Brasil") print(ds["train"][0]) ``` Para treinamento causal (GPT-style): ```python from datasets import load_dataset from transformers import AutoTokenizer ds = load_dataset("jinilson/Brasil") tokenizer = AutoTokenizer.from_pretrained("seu-modelo-base") def tokenize(example): return tokenizer(example["text"], truncation=True, max_length=512) tokenized = ds.map(tokenize, batched=True) ``` ## 🎯 Casos de uso - ✅ **Pré-treinamento** de modelos de linguagem em português - ✅ **Continual pre-training** — continuar treinando modelos já existentes com dados PT-BR - ✅ **Fine-tuning** para geração de texto literário em português - ✅ **Embeddings** e modelos de representação semântica - ✅ **Benchmarking** de modelos em português clássico e moderno ## 📊 Estatísticas | Métrica | Valor | |---|---| | Total de obras | 3 | | Total de palavras | ~235.000 | | Idioma | Português Brasileiro (pt-BR) | | Período histórico | Século XIX – XX | | Formato | JSONL (uma entrada por linha) | ## 🔤 Características linguísticas - Português brasileiro em diferentes registros históricos - Vocabulário rico e variado da literatura clássica - Obras em domínio público — sem restrições de uso - Texto limpo, sem ruído de OCR ## 📜 Licença e direitos Todas as obras incluídas neste dataset são de **domínio público** no Brasil e internacionalmente. O dataset em si é disponibilizado sob licença **Apache 2.0**. Fonte dos textos: [Project Gutenberg](https://www.gutenberg.org/) ## 🤝 Contribuições Quer adicionar mais obras brasileiras? Abra uma issue ou pull request! Sugestões de obras para incluir: - Dom Casmurro — Machado de Assis - Memórias Póstumas de Brás Cubas — Machado de Assis - O Cortiço — Aluísio Azevedo - Iracema — José de Alencar - Os Sertões — Euclides da Cunha ## ✍️ Citação ```bibtex @dataset{jinilson_brasil_2026, author = {jinilson}, title = {Brasil — Textos Literários Brasileiros}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/jinilson/Brasil} } ```
提供机构:
jinilson
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作