recogna-nlp/enamed-2025

Name: recogna-nlp/enamed-2025
Creator: recogna-nlp
Published: 2026-04-18 14:48:14
License: 暂无描述

Hugging Face2026-04-18 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/recogna-nlp/enamed-2025

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 configs: - config_name: default data_files: - split: test path: dataset.json task_categories: - question-answering language: - pt --- # ENAMED 2025: Exame Nacional de Avaliação da Formação Médica ## Resumo do Dataset O dataset **ENAMED 2025** é um benchmark baseado em questões de múltipla escolha no domínio médico, derivado da edição inaugural do Exame Nacional de Avaliação da Formação Médica (ENAMED 2025) no Brasil. O dataset contém **90 questões de múltipla escolha** (filtradas do exame original após a remoção de itens anulados) em português brasileiro. Ele foi desenvolvido para avaliar o raciocínio clínico, o conhecimento de práticas médicas e a adesão às políticas de saúde pública por Grandes Modelos de Linguagem (LLMs). ## Estrutura do Dataset ### Instâncias de Dados Cada instância no dataset representa uma única questão de múltipla escolha retirada do exame. ### Campos de Dados Com base no formato experimental descrito no artigo, os campos esperados para cada instância JSON incluem: - `numero`: O identificador da questão. - `enunciado`: O texto principal ou caso clínico (vinheta) da questão. - `alternativas`: Um dicionário contendo as 4 opções de resposta possíveis (A, B, C, D). - `resposta`: A alternativa correta oficial (ex: "A", "B", "C", "D"). - `contains_img`: Tipo booleano que indica se aquela questão possui uma imagem associada. - `img_descricao`: Descrições textuais geradas para questões que originalmente continham imagens. - `categoria`: A especialidade médica ou área de competência. - `categoria_confianca`: Nível de concordância entre os modelos na atribuição da categoria. ## Criação do Dataset ### Fonte dos Dados Os materiais de origem foram obtidos no repositório oficial do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). O material consiste no caderno de provas de 2025 e no gabarito oficial. ### Curadoria e Limpeza 1. **Extração:** Um pipeline de extração baseado em regras converteu os PDFs não estruturados em formatos legíveis por máquina. 2. **Revisão Humana:** Realinhamento manual de alternativas fragmentadas e conversão de tabelas clínicas para Markdown, visando melhorar a compatibilidade com tokenizadores de LLMs. 3. **Filtragem:** Questões anuladas pela banca examinadora ou excluídas da pontuação oficial foram removidas para garantir a consistência da avaliação. 4. **Classificação de Domínio:** Os itens foram mapeados para 7 áreas de competência da Matriz de Referência Comum utilizando um consenso de Modelos como Juízes (*Model-as-Judge* com Gemini 3 Pro, GPT-5 e Sabiá 4), alcançando uma concordância alta (Fleiss’ $\kappa = 0.82$). ### Adaptação Multimodal Um subconjunto de 3 questões exigia a interpretação de imagens clínicas. Para permitir a avaliação com modelos estritamente baseados em texto, descrições textuais dos estímulos visuais foram geradas usando o modelo `gemini-3-pro-preview`. Posteriormente, essas descrições foram revisadas e corrigidas por um estudante de medicina para melhorar a clareza clínica, corrigir artefatos fotográficos e remover atributos superficiais enganosos. ### Limitações e Vieses Conhecidos - **Limitação do Proxy Multimodal:** As descrições de imagens são aproximações textuais e não constituem uma validação real das capacidades de diagnóstico visual dos modelos. Além disso, não foram avaliadas por médicos especialistas. - **Tamanho da Amostra:** O dataset contém 90 itens, refletindo a edição inaugural do exame. Análises de subgrupos podem apresentar intervalos de confiança estatística mais amplos. ## Citação Este trabalho foi aceito no "The First Workshop on Language Technologies for Health (Lang4Health)". Se você utilizar este dataset em sua pesquisa, por favor, cite o artigo original. ```json @inproceedings{correia-etal-2026-class, title = "Class of {LLM}s: Benchmarking Large Language Models on the {B}razilian National Medical Examination", author = "Correia, Jo{\~a}o Vitor Mariano and Castro, Pedro Henrique Alves de and Garcia, Gabriel Lino and Paiola, Pedro Henrique and Papa, Jo{\~a}o Paulo", editor = "Souza, Marlo and de-Dios-Flores, Iria and Santos, Diana and Freitas, Larissa and Souza, Jackson Wilke da Cruz and Ribeiro, Eug{\'e}nio", booktitle = "Proceedings of the 17th International Conference on Computational Processing of {P}ortuguese ({PROPOR} 2026) - Vol. 2", month = apr, year = "2026", address = "Salvador, Brazil", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2026.propor-2.17/", pages = "101--111", ISBN = "979-8-89176-387-6", } ```

提供机构：

recogna-nlp

5,000+

优质数据集

54 个

任务类型

进入经典数据集