five

recogna-nlp/enamed-2025

收藏
Hugging Face2026-04-18 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/recogna-nlp/enamed-2025
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 configs: - config_name: default data_files: - split: test path: dataset.json task_categories: - question-answering language: - pt --- # ENAMED 2025: Exame Nacional de Avaliação da Formação Médica ## Resumo do Dataset O dataset **ENAMED 2025** é um benchmark baseado em questões de múltipla escolha no domínio médico, derivado da edição inaugural do Exame Nacional de Avaliação da Formação Médica (ENAMED 2025) no Brasil. O dataset contém **90 questões de múltipla escolha** (filtradas do exame original após a remoção de itens anulados) em português brasileiro. Ele foi desenvolvido para avaliar o raciocínio clínico, o conhecimento de práticas médicas e a adesão às políticas de saúde pública por Grandes Modelos de Linguagem (LLMs). ## Estrutura do Dataset ### Instâncias de Dados Cada instância no dataset representa uma única questão de múltipla escolha retirada do exame. ### Campos de Dados Com base no formato experimental descrito no artigo, os campos esperados para cada instância JSON incluem: - `numero`: O identificador da questão. - `enunciado`: O texto principal ou caso clínico (vinheta) da questão. - `alternativas`: Um dicionário contendo as 4 opções de resposta possíveis (A, B, C, D). - `resposta`: A alternativa correta oficial (ex: "A", "B", "C", "D"). - `contains_img`: Tipo booleano que indica se aquela questão possui uma imagem associada. - `img_descricao`: Descrições textuais geradas para questões que originalmente continham imagens. - `categoria`: A especialidade médica ou área de competência. - `categoria_confianca`: Nível de concordância entre os modelos na atribuição da categoria. ## Criação do Dataset ### Fonte dos Dados Os materiais de origem foram obtidos no repositório oficial do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). O material consiste no caderno de provas de 2025 e no gabarito oficial. ### Curadoria e Limpeza 1. **Extração:** Um pipeline de extração baseado em regras converteu os PDFs não estruturados em formatos legíveis por máquina. 2. **Revisão Humana:** Realinhamento manual de alternativas fragmentadas e conversão de tabelas clínicas para Markdown, visando melhorar a compatibilidade com tokenizadores de LLMs. 3. **Filtragem:** Questões anuladas pela banca examinadora ou excluídas da pontuação oficial foram removidas para garantir a consistência da avaliação. 4. **Classificação de Domínio:** Os itens foram mapeados para 7 áreas de competência da Matriz de Referência Comum utilizando um consenso de Modelos como Juízes (*Model-as-Judge* com Gemini 3 Pro, GPT-5 e Sabiá 4), alcançando uma concordância alta (Fleiss’ $\kappa = 0.82$). ### Adaptação Multimodal Um subconjunto de 3 questões exigia a interpretação de imagens clínicas. Para permitir a avaliação com modelos estritamente baseados em texto, descrições textuais dos estímulos visuais foram geradas usando o modelo `gemini-3-pro-preview`. Posteriormente, essas descrições foram revisadas e corrigidas por um estudante de medicina para melhorar a clareza clínica, corrigir artefatos fotográficos e remover atributos superficiais enganosos. ### Limitações e Vieses Conhecidos - **Limitação do Proxy Multimodal:** As descrições de imagens são aproximações textuais e não constituem uma validação real das capacidades de diagnóstico visual dos modelos. Além disso, não foram avaliadas por médicos especialistas. - **Tamanho da Amostra:** O dataset contém 90 itens, refletindo a edição inaugural do exame. Análises de subgrupos podem apresentar intervalos de confiança estatística mais amplos. ## Citação Este trabalho foi aceito no "The First Workshop on Language Technologies for Health (Lang4Health)". Se você utilizar este dataset em sua pesquisa, por favor, cite o artigo original. ```json @inproceedings{correia-etal-2026-class, title = "Class of {LLM}s: Benchmarking Large Language Models on the {B}razilian National Medical Examination", author = "Correia, Jo{\~a}o Vitor Mariano and Castro, Pedro Henrique Alves de and Garcia, Gabriel Lino and Paiola, Pedro Henrique and Papa, Jo{\~a}o Paulo", editor = "Souza, Marlo and de-Dios-Flores, Iria and Santos, Diana and Freitas, Larissa and Souza, Jackson Wilke da Cruz and Ribeiro, Eug{\'e}nio", booktitle = "Proceedings of the 17th International Conference on Computational Processing of {P}ortuguese ({PROPOR} 2026) - Vol. 2", month = apr, year = "2026", address = "Salvador, Brazil", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2026.propor-2.17/", pages = "101--111", ISBN = "979-8-89176-387-6", } ```
提供机构:
recogna-nlp
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作