five

LABDAPS/texto-clinico-brasileiro

收藏
Hugging Face2026-04-03 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/LABDAPS/texto-clinico-brasileiro
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - pt license: mit size_categories: - 100K<n<1M task_categories: - text-generation - token-classification - text-classification - question-answering tags: - medical - clinical - healthcare - nlp - portuguese - brazil - anamnese - clinical-notes - ehr - health-ai pretty_name: Texto Clinico Brasileiro dataset_info: features: - name: id dtype: string - name: text dtype: string - name: source dtype: string - name: text_type dtype: string - name: specialty dtype: string - name: metadata dtype: string splits: - name: train num_bytes: 262926904 num_examples: 384285 download_size: 98501175 dataset_size: 262926904 configs: - config_name: default data_files: - split: train path: data/train-* --- # Texto Clinico Brasileiro Dataset unificado de texto clinico em portugues brasileiro para NLP. Agrega multiplos datasets publicos em um schema Parquet padronizado, facilitando o treinamento e avaliacao de modelos de linguagem para o dominio clinico. ## Conteudo | Dataset | Registros | Tipo | Acesso | Fonte | |---------|-----------|------|--------|-------| | **MedPT** | 384.085 | Perguntas e respostas medicas | Livre | [AKCIT/MedPT](https://huggingface.co/datasets/AKCIT/MedPT) | | **Sepse HC-RP** | 200 | Resumos de alta hospitalar | Livre | [Dataverse](https://doi.org/10.7910/DVN/GWNBQQ) | **Total:** 384.285 registros | **Tamanho:** ~95 MB (Parquet) ## Schema ``` id : str -- identificador unico (ex: "medpt_000001", "sepse_hcrp_0001") text : str -- texto clinico source : str -- dataset de origem (medpt, sepse_hcrp) text_type : str -- tipo de texto (qa_pair, discharge_summary) specialty : str -- especialidade medica metadata : str -- JSON com campos especificos do dataset original ``` ## Especialidades (top 10) | Especialidade | Registros | |---|---| | Psicologo | 57.112 | | Ginecologista | 26.618 | | Urologista | 16.173 | | Dermatologista | 15.051 | | Ortopedista | 14.818 | | Oftalmologista | 12.109 | | Psiquiatra | 11.149 | | Dentista | 11.143 | | Psicanalista | 9.742 | | Otorrino | 7.734 | ## Como usar ```python from datasets import load_dataset ds = load_dataset("LABDAPS/texto-clinico-brasileiro") # Filtrar por fonte medpt = ds["train"].filter(lambda x: x["source"] == "medpt") sepse = ds["train"].filter(lambda x: x["source"] == "sepse_hcrp") # Filtrar por especialidade cardio = ds["train"].filter(lambda x: "Cardiologista" in x["specialty"]) ``` ## Pipeline de geracao O dataset e gerado pelo pipeline do repositorio [pt-br-clinical-nlp](https://github.com/fabianofilho/pt-br-clinical-nlp), que baixa, normaliza e unifica os datasets originais em um schema padrao. ## Extensibilidade O pipeline suporta datasets adicionais com acesso credenciado: | Dataset | Registros | Acesso | |---------|-----------|--------| | **SemClinBr** | 1.000 | Credenciado (PUCPR) | | **BRATECA** | 2.800.000+ | Credenciado (PhysioNet) | Para incluir esses datasets, siga as instrucoes em [pt-br-clinical-nlp](https://github.com/fabianofilho/pt-br-clinical-nlp). ## Citacao ```bibtex @dataset{texto_clinico_brasileiro_2026, title={Texto Clinico Brasileiro: Dataset Unificado de Texto Clinico em Portugues para NLP}, author={Fabiano Filho}, year={2026}, url={https://huggingface.co/datasets/LABDAPS/texto-clinico-brasileiro}, note={Agrega MedPT e Sepse HC-RP em schema padronizado} } ``` ## Licenca Codigo do pipeline: MIT. Dados pertencem aos autores originais com suas respectivas licencas. ## Autor [LABDAPS](https://www.fsp.usp.br/labdaps/) -- Laboratorio de Big Data e Analise Preditiva em Saude, FSP-USP [Fabiano Filho](https://github.com/fabianofilho) -- Medico, Cientista de Dados, Doutorando FSP-USP (LABDAPS)
提供机构:
LABDAPS
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作