drbodebench

Name: drbodebench
Creator: Recogna NLP
Published: 2025-06-03 12:03:24
License: 暂无描述

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/recogna-nlp/drbodebench

下载链接

链接失效反馈

官方服务：

资源简介：

Benchmark Brasileiro de Testes de Aptidão Médica (DrBodeBench)是一个医学问题回答数据集，包含来自巴西医学能力测试的问题，涵盖了2011至2024年，包括Revalida和FUVEST考试。数据集由问题、多选答案和正确答案组成，旨在评估大型语言模型在巴西葡萄牙语医学问题上的表现。

The Benchmark Brasileiro de Testes de Aptidão Médica (DrBodeBench) is a medical question answering dataset. It contains questions sourced from Brazilian medical competency tests spanning from 2011 to 2024, including the Revalida and FUVEST examinations. The dataset comprises questions, multiple-choice options, and correct answers, and is designed to evaluate the performance of large language models (LLMs) on medical questions written in Brazilian Portuguese.

提供机构：

Recogna NLP

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

在医学人工智能评估领域，DrBodeBench的构建基于巴西国家级医学资格考试的真实题目，涵盖2011至2025年间的Revalida医师资格再认证考试和圣保罗大学住院医师入学考试（FUVEST）。数据采集过程采用正则表达式技术从原始考试材料中提取题目，并通过GPT-4o mini模型进行文本重构与编码纠错，最后经过人工校对确保医学术语的准确性和题目结构的完整性。对于含图像的题目，专门生成了文本描述以适配纯语言模型，构建过程体现了多模态医学数据的标准化处理流程。

特点

该数据集最显著的特征在于其专业性与文化适配性，所有题目均来自巴西官方医学考试体系，确保医学知识的权威性和临床实践相关性。数据集采用严格的多选题格式，每道题目包含完整的题干文本、五个备选项及标准答案，并特别标注了图像题目的文本描述字段。其时间跨度长达15年，能够反映医学知识的演进轨迹，为评估模型对时效性医学知识的掌握程度提供重要依据。数据集同时支持对通用大模型和医学专业模型的基准测试，填补了葡萄牙语医学AI评估工具的空白。

使用方法

使用该数据集进行模型评估时，需按照标准提示模板构建输入：首先提供医学问题题干，若题目包含图像则追加文本描述，最后呈现所有备选项。模型输出需严格限定为单个字母（A-E）表示选项，避免任何解释性文字。评估仅关注模型生成的首字母与标准答案的匹配度，这种设计既能准确衡量模型的核心推理能力，又保证了评估结果的可比性。数据集配套提供原始图像文件下载，支持需要视觉输入的多模态模型扩展研究。

背景与挑战

背景概述

在医学人工智能领域，针对非英语语种的专业评估工具长期匮乏，巴西葡萄牙语医学大语言模型的标准化评测体系尤为欠缺。DrBodeBench（DBB）基准数据集由Gabriel Lino Garcia等研究人员于2025年创建，旨在填补这一关键空白。该数据集整合了2011至2025年间巴西医学资质考试资源，包括外国医学文凭重新认证国家考试（Revalida）和圣保罗大学住院医师入学考试（FUVEST），构建了首个针对巴西葡萄牙语医学问答任务的标准化评估框架。其核心研究问题聚焦于提升医学语言模型在巴西医疗场景下的文化适应性与诊断准确性，为促进医疗AI系统在拉丁美洲地区的公平发展奠定了重要基础。

当前挑战

构建过程中面临双重挑战：在领域问题层面，需解决巴西葡萄牙语医学术语的语境依赖性挑战，以及多模态试题中视觉信息与文本描述的语义对齐难题；在数据构建层面，原始试题存在排版错位、编码不一致等数据质量问题，需通过正则表达式与GPT-4o mini进行联合清洗，并对图像描述生成进行人工校验。此外，如何平衡临床术语的准确性与语言模型的认知边界，确保评估结果既符合医学严谨性又具备技术可复现性，成为数据集迭代的核心挑战。

常用场景

经典使用场景

在医学人工智能领域，DrBodeBench数据集作为评估大型语言模型在巴西葡萄牙语医学问答任务中的基准工具，其经典应用场景集中于模拟真实医学资格考试环境。该数据集通过整合2011年至2025年间的巴西医学资格试题，包括Revalida和FUVEST考试内容，构建了标准化的多选问答框架。研究者在评估模型时，会输入医学问题陈述文本及可能的图像描述，要求模型仅输出正确选项的字母代号，从而精准衡量模型对医学知识的理解能力和语言生成质量。

衍生相关工作

围绕该数据集衍生的经典研究包括Garcia等人提出的医学语言模型强基线架构，其成果发表于IEEE国际医学系统研讨会。后续研究在此基础上拓展了多模态医学问答模型，结合视觉语言理解技术处理含图像的临床问题。另有学者利用该基准开展跨语言迁移学习研究，比较葡英双语模型在医学领域的知识迁移效率。这些工作共同推动了巴西医疗AI标准化评估生态的形成，并激发了针对拉丁美洲其他语种的类似基准建设浪潮。

数据集最近研究