recogna-nlp/enamed-2025
收藏Hugging Face2026-04-18 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/recogna-nlp/enamed-2025
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
configs:
- config_name: default
data_files:
- split: test
path: dataset.json
task_categories:
- question-answering
language:
- pt
---
# ENAMED 2025: Exame Nacional de Avaliação da Formação Médica
## Resumo do Dataset
O dataset **ENAMED 2025** é um benchmark baseado em questões de múltipla escolha no domínio médico, derivado da edição inaugural do Exame Nacional de Avaliação da Formação Médica (ENAMED 2025) no Brasil.
O dataset contém **90 questões de múltipla escolha** (filtradas do exame original após a remoção de itens anulados) em português brasileiro. Ele foi desenvolvido para avaliar o raciocínio clínico, o conhecimento de práticas médicas e a adesão às políticas de saúde pública por Grandes Modelos de Linguagem (LLMs).
## Estrutura do Dataset
### Instâncias de Dados
Cada instância no dataset representa uma única questão de múltipla escolha retirada do exame.
### Campos de Dados
Com base no formato experimental descrito no artigo, os campos esperados para cada instância JSON incluem:
- `numero`: O identificador da questão.
- `enunciado`: O texto principal ou caso clínico (vinheta) da questão.
- `alternativas`: Um dicionário contendo as 4 opções de resposta possíveis (A, B, C, D).
- `resposta`: A alternativa correta oficial (ex: "A", "B", "C", "D").
- `contains_img`: Tipo booleano que indica se aquela questão possui uma imagem associada.
- `img_descricao`: Descrições textuais geradas para questões que originalmente continham imagens.
- `categoria`: A especialidade médica ou área de competência.
- `categoria_confianca`: Nível de concordância entre os modelos na atribuição da categoria.
## Criação do Dataset
### Fonte dos Dados
Os materiais de origem foram obtidos no repositório oficial do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). O material consiste no caderno de provas de 2025 e no gabarito oficial.
### Curadoria e Limpeza
1. **Extração:** Um pipeline de extração baseado em regras converteu os PDFs não estruturados em formatos legíveis por máquina.
2. **Revisão Humana:** Realinhamento manual de alternativas fragmentadas e conversão de tabelas clínicas para Markdown, visando melhorar a compatibilidade com tokenizadores de LLMs.
3. **Filtragem:** Questões anuladas pela banca examinadora ou excluídas da pontuação oficial foram removidas para garantir a consistência da avaliação.
4. **Classificação de Domínio:** Os itens foram mapeados para 7 áreas de competência da Matriz de Referência Comum utilizando um consenso de Modelos como Juízes (*Model-as-Judge* com Gemini 3 Pro, GPT-5 e Sabiá 4), alcançando uma concordância alta (Fleiss’ $\kappa = 0.82$).
### Adaptação Multimodal
Um subconjunto de 3 questões exigia a interpretação de imagens clínicas. Para permitir a avaliação com modelos estritamente baseados em texto, descrições textuais dos estímulos visuais foram geradas usando o modelo `gemini-3-pro-preview`. Posteriormente, essas descrições foram revisadas e corrigidas por um estudante de medicina para melhorar a clareza clínica, corrigir artefatos fotográficos e remover atributos superficiais enganosos.
### Limitações e Vieses Conhecidos
- **Limitação do Proxy Multimodal:** As descrições de imagens são aproximações textuais e não constituem uma validação real das capacidades de diagnóstico visual dos modelos. Além disso, não foram avaliadas por médicos especialistas.
- **Tamanho da Amostra:** O dataset contém 90 itens, refletindo a edição inaugural do exame. Análises de subgrupos podem apresentar intervalos de confiança estatística mais amplos.
## Citação
Este trabalho foi aceito no "The First Workshop on Language Technologies for Health (Lang4Health)". Se você utilizar este dataset em sua pesquisa, por favor, cite o artigo original.
```json
@inproceedings{correia-etal-2026-class,
title = "Class of {LLM}s: Benchmarking Large Language Models on the {B}razilian National Medical Examination",
author = "Correia, Jo{\~a}o Vitor Mariano and
Castro, Pedro Henrique Alves de and
Garcia, Gabriel Lino and
Paiola, Pedro Henrique and
Papa, Jo{\~a}o Paulo",
editor = "Souza, Marlo and
de-Dios-Flores, Iria and
Santos, Diana and
Freitas, Larissa and
Souza, Jackson Wilke da Cruz and
Ribeiro, Eug{\'e}nio",
booktitle = "Proceedings of the 17th International Conference on Computational Processing of {P}ortuguese ({PROPOR} 2026) - Vol. 2",
month = apr,
year = "2026",
address = "Salvador, Brazil",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2026.propor-2.17/",
pages = "101--111",
ISBN = "979-8-89176-387-6",
}
```
提供机构:
recogna-nlp



