drbodebench
收藏Hugging Face2025-06-03 更新2025-06-04 收录
下载链接:
https://huggingface.co/datasets/recogna-nlp/drbodebench
下载链接
链接失效反馈官方服务:
资源简介:
Benchmark Brasileiro de Testes de Aptidão Médica (DrBodeBench)是一个医学问题回答数据集,包含来自巴西医学能力测试的问题,涵盖了2011至2024年,包括Revalida和FUVEST考试。数据集由问题、多选答案和正确答案组成,旨在评估大型语言模型在巴西葡萄牙语医学问题上的表现。
提供机构:
Recogna NLP
创建时间:
2025-06-03
搜集汇总
数据集介绍

构建方式
在医学人工智能评估领域,DrBodeBench的构建基于巴西国家级医学资格考试的真实题目,涵盖2011至2025年间的Revalida医师资格再认证考试和圣保罗大学住院医师入学考试(FUVEST)。数据采集过程采用正则表达式技术从原始考试材料中提取题目,并通过GPT-4o mini模型进行文本重构与编码纠错,最后经过人工校对确保医学术语的准确性和题目结构的完整性。对于含图像的题目,专门生成了文本描述以适配纯语言模型,构建过程体现了多模态医学数据的标准化处理流程。
特点
该数据集最显著的特征在于其专业性与文化适配性,所有题目均来自巴西官方医学考试体系,确保医学知识的权威性和临床实践相关性。数据集采用严格的多选题格式,每道题目包含完整的题干文本、五个备选项及标准答案,并特别标注了图像题目的文本描述字段。其时间跨度长达15年,能够反映医学知识的演进轨迹,为评估模型对时效性医学知识的掌握程度提供重要依据。数据集同时支持对通用大模型和医学专业模型的基准测试,填补了葡萄牙语医学AI评估工具的空白。
使用方法
使用该数据集进行模型评估时,需按照标准提示模板构建输入:首先提供医学问题题干,若题目包含图像则追加文本描述,最后呈现所有备选项。模型输出需严格限定为单个字母(A-E)表示选项,避免任何解释性文字。评估仅关注模型生成的首字母与标准答案的匹配度,这种设计既能准确衡量模型的核心推理能力,又保证了评估结果的可比性。数据集配套提供原始图像文件下载,支持需要视觉输入的多模态模型扩展研究。
背景与挑战
背景概述
在医学人工智能领域,针对非英语语种的专业评估工具长期匮乏,巴西葡萄牙语医学大语言模型的标准化评测体系尤为欠缺。DrBodeBench(DBB)基准数据集由Gabriel Lino Garcia等研究人员于2025年创建,旨在填补这一关键空白。该数据集整合了2011至2025年间巴西医学资质考试资源,包括外国医学文凭重新认证国家考试(Revalida)和圣保罗大学住院医师入学考试(FUVEST),构建了首个针对巴西葡萄牙语医学问答任务的标准化评估框架。其核心研究问题聚焦于提升医学语言模型在巴西医疗场景下的文化适应性与诊断准确性,为促进医疗AI系统在拉丁美洲地区的公平发展奠定了重要基础。
当前挑战
构建过程中面临双重挑战:在领域问题层面,需解决巴西葡萄牙语医学术语的语境依赖性挑战,以及多模态试题中视觉信息与文本描述的语义对齐难题;在数据构建层面,原始试题存在排版错位、编码不一致等数据质量问题,需通过正则表达式与GPT-4o mini进行联合清洗,并对图像描述生成进行人工校验。此外,如何平衡临床术语的准确性与语言模型的认知边界,确保评估结果既符合医学严谨性又具备技术可复现性,成为数据集迭代的核心挑战。
常用场景
经典使用场景
在医学人工智能领域,DrBodeBench数据集作为评估大型语言模型在巴西葡萄牙语医学问答任务中的基准工具,其经典应用场景集中于模拟真实医学资格考试环境。该数据集通过整合2011年至2025年间的巴西医学资格试题,包括Revalida和FUVEST考试内容,构建了标准化的多选问答框架。研究者在评估模型时,会输入医学问题陈述文本及可能的图像描述,要求模型仅输出正确选项的字母代号,从而精准衡量模型对医学知识的理解能力和语言生成质量。
衍生相关工作
围绕该数据集衍生的经典研究包括Garcia等人提出的医学语言模型强基线架构,其成果发表于IEEE国际医学系统研讨会。后续研究在此基础上拓展了多模态医学问答模型,结合视觉语言理解技术处理含图像的临床问题。另有学者利用该基准开展跨语言迁移学习研究,比较葡英双语模型在医学领域的知识迁移效率。这些工作共同推动了巴西医疗AI标准化评估生态的形成,并激发了针对拉丁美洲其他语种的类似基准建设浪潮。
数据集最近研究
最新研究方向
在巴西葡萄牙语医疗人工智能领域,DrBodeBench的推出标志着非英语语境下医学大语言模型评估体系的重要突破。该数据集整合了2011至2025年间的巴西医师资格认证考试真题,构建了涵盖文字与多模态信息的标准化测试框架。当前研究聚焦于提升模型对巴西本土医疗术语的文化适应性理解,探索多模态提示策略在临床决策支持中的应用潜力。随着全球医疗AI公平性议题升温,该基准为开发符合拉丁美洲医疗体系需求的语言模型提供了关键基础设施,推动跨语言医疗人工智能向更具包容性的方向发展。
以上内容由遇见数据集搜集并总结生成



