LABDAPS/texto-clinico-brasileiro
收藏Hugging Face2026-04-03 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/LABDAPS/texto-clinico-brasileiro
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- pt
license: mit
size_categories:
- 100K<n<1M
task_categories:
- text-generation
- token-classification
- text-classification
- question-answering
tags:
- medical
- clinical
- healthcare
- nlp
- portuguese
- brazil
- anamnese
- clinical-notes
- ehr
- health-ai
pretty_name: Texto Clinico Brasileiro
dataset_info:
features:
- name: id
dtype: string
- name: text
dtype: string
- name: source
dtype: string
- name: text_type
dtype: string
- name: specialty
dtype: string
- name: metadata
dtype: string
splits:
- name: train
num_bytes: 262926904
num_examples: 384285
download_size: 98501175
dataset_size: 262926904
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Texto Clinico Brasileiro
Dataset unificado de texto clinico em portugues brasileiro para NLP.
Agrega multiplos datasets publicos em um schema Parquet padronizado, facilitando
o treinamento e avaliacao de modelos de linguagem para o dominio clinico.
## Conteudo
| Dataset | Registros | Tipo | Acesso | Fonte |
|---------|-----------|------|--------|-------|
| **MedPT** | 384.085 | Perguntas e respostas medicas | Livre | [AKCIT/MedPT](https://huggingface.co/datasets/AKCIT/MedPT) |
| **Sepse HC-RP** | 200 | Resumos de alta hospitalar | Livre | [Dataverse](https://doi.org/10.7910/DVN/GWNBQQ) |
**Total:** 384.285 registros | **Tamanho:** ~95 MB (Parquet)
## Schema
```
id : str -- identificador unico (ex: "medpt_000001", "sepse_hcrp_0001")
text : str -- texto clinico
source : str -- dataset de origem (medpt, sepse_hcrp)
text_type : str -- tipo de texto (qa_pair, discharge_summary)
specialty : str -- especialidade medica
metadata : str -- JSON com campos especificos do dataset original
```
## Especialidades (top 10)
| Especialidade | Registros |
|---|---|
| Psicologo | 57.112 |
| Ginecologista | 26.618 |
| Urologista | 16.173 |
| Dermatologista | 15.051 |
| Ortopedista | 14.818 |
| Oftalmologista | 12.109 |
| Psiquiatra | 11.149 |
| Dentista | 11.143 |
| Psicanalista | 9.742 |
| Otorrino | 7.734 |
## Como usar
```python
from datasets import load_dataset
ds = load_dataset("LABDAPS/texto-clinico-brasileiro")
# Filtrar por fonte
medpt = ds["train"].filter(lambda x: x["source"] == "medpt")
sepse = ds["train"].filter(lambda x: x["source"] == "sepse_hcrp")
# Filtrar por especialidade
cardio = ds["train"].filter(lambda x: "Cardiologista" in x["specialty"])
```
## Pipeline de geracao
O dataset e gerado pelo pipeline do repositorio [pt-br-clinical-nlp](https://github.com/fabianofilho/pt-br-clinical-nlp),
que baixa, normaliza e unifica os datasets originais em um schema padrao.
## Extensibilidade
O pipeline suporta datasets adicionais com acesso credenciado:
| Dataset | Registros | Acesso |
|---------|-----------|--------|
| **SemClinBr** | 1.000 | Credenciado (PUCPR) |
| **BRATECA** | 2.800.000+ | Credenciado (PhysioNet) |
Para incluir esses datasets, siga as instrucoes em [pt-br-clinical-nlp](https://github.com/fabianofilho/pt-br-clinical-nlp).
## Citacao
```bibtex
@dataset{texto_clinico_brasileiro_2026,
title={Texto Clinico Brasileiro: Dataset Unificado de Texto Clinico em Portugues para NLP},
author={Fabiano Filho},
year={2026},
url={https://huggingface.co/datasets/LABDAPS/texto-clinico-brasileiro},
note={Agrega MedPT e Sepse HC-RP em schema padronizado}
}
```
## Licenca
Codigo do pipeline: MIT. Dados pertencem aos autores originais com suas respectivas licencas.
## Autor
[LABDAPS](https://www.fsp.usp.br/labdaps/) -- Laboratorio de Big Data e Analise Preditiva em Saude, FSP-USP
[Fabiano Filho](https://github.com/fabianofilho) -- Medico, Cientista de Dados, Doutorando FSP-USP (LABDAPS)
提供机构:
LABDAPS



