PeruMedQA
收藏arXiv2025-09-15 更新2025-11-21 收录
下载链接:
https://github.com/rodrigo-carrillo/PeruMedQA
下载链接
链接失效反馈官方服务:
资源简介:
PeruMedQA数据集是由埃默里大学全球卫生中心创建的,包含来自秘鲁医学考试中的8380个多项选择题,覆盖12个医学领域,时间跨度为2018年至2025年。数据集来源于秘鲁国家医学住院医师委员会(CONAREME)发布的考试和答案。该数据集旨在为需要基于西班牙语和具有类似流行病学的秘鲁医学知识库的医学人工智能应用和研究提供支持。
提供机构:
埃默里大学全球卫生中心
创建时间:
2025-09-15
搜集汇总
数据集介绍

构建方式
在医学人工智能领域,针对西班牙语医疗知识评估的需求日益凸显。PeruMedQA数据集的构建依托秘鲁国家医学住院医师委员会(CONAREME)公开发布的2018-2025年专科与亚专科医师资格考试真题,通过自主开发的Python程序从PDF文档中系统提取8380道选择题的题干、选项及标准答案。为确保数据质量,研究团队对全部题目进行了人工校验,仅需对16处(0.19%)答案进行手动修正,并通过引入“NA”选项实现了不同年份题目选项数量的标准化,最终形成包含12个医学领域的结构化数据集。
特点
该数据集显著特征在于其独特的流行病学背景,完整覆盖秘鲁地区特有的传染病、热带病与慢性非传染性疾病谱系。数据时间跨度长达八年,真实反映了当地医学教育体系的演进轨迹,其中2025年度的1400道题目被专门设为独立测试集。题目全部采用西班牙语表述,既包含基础医学概念考察,也涉及典型临床案例分析,为评估大语言模型在拉丁美洲医疗场景下的知识理解能力提供了精准测量工具。
使用方法
研究团队设计了零样本任务特定提示策略,采用西班牙语系统指令引导模型完成选择题作答。在模型评估阶段,选取包括medgemma系列在内的八个医学大语言模型进行横向比较,通过参数高效微调技术对medgemma-4b-it模型进行领域适配。具体实施时,将2025年之外的数据按9:1划分训练集与验证集,采用低秩自适应方法进行十轮迭代训练,最终在保留测试集上验证模型性能,为资源受限环境下的医学AI应用提供了经过优化的模型方案。
背景与挑战
背景概述
PeruMedQA数据集由Rodrigo M. Carrillo-Larco等研究人员于2025年构建,旨在评估大语言模型在秘鲁医学考试中的表现。该数据集整合了秘鲁国家医学住院医师委员会2018至2025年间的8,380道西班牙语多选题,涵盖12个医学领域。其核心研究问题聚焦于探索医学大语言模型在拉丁美洲国家特定流行病学背景下的适应性,填补了西班牙语医学人工智能评估的空白,为资源有限地区的医疗AI应用提供了关键基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决模型对秘鲁本土疾病谱系(如热带病与慢性病共存)的认知不足,以及西班牙语医学语境的理解偏差;在构建过程中,遭遇了原始PDF格式数据提取的准确性难题,包括答案标注错误率0.19%与不同年份选项数量不统一的问题,最终通过程序化提取与人工校验相结合的方式确保了数据质量。
常用场景
经典使用场景
在医学人工智能研究领域,PeruMedQA数据集最经典的应用场景是作为评估大型语言模型在西班牙语医学考试中表现能力的基准测试工具。该数据集汇集了秘鲁医学专科考试中的8380道选择题,涵盖12个医学专业领域,为研究者提供了系统评估模型在拉丁美洲特定流行病学背景下医学知识掌握程度的标准化平台。通过构建零样本任务特定提示,研究人员能够客观比较不同参数规模医学大语言模型在应对西班牙语医学问题时的准确率差异。
衍生相关工作
基于PeruMedQA的评估框架衍生出多项重要研究工作,包括参数高效微调技术的优化应用。研究团队采用低秩自适应方法对medgemma-4b-it进行领域适配,显著提升了模型对秘鲁流行病学特征的认知能力。这项工作启发了后续针对特定地区医学知识的模型优化研究,为开发面向不同语言文化背景的专科医学AI系统建立了可复现的技术范式,推动了跨文化医疗人工智能的发展。
数据集最近研究
最新研究方向
在医学人工智能领域,PeruMedQA数据集的构建标志着针对西班牙语医疗知识评估的重要突破。该数据集聚焦于评估大型语言模型在秘鲁医学考试中的表现,揭示了模型在拉丁美洲特定流行病学背景下的适应性挑战。前沿研究主要探索参数规模与模型性能的平衡,通过参数高效微调技术显著提升了小型模型在本地化医疗问答中的准确率,为资源有限环境下的医学AI应用提供了可行方案。这一方向正推动跨语言医疗模型向更具包容性和地域适应性的方向发展,对全球南方国家的数字化医疗建设具有重要参考价值。
相关研究论文
- 1通过埃默里大学全球卫生中心 · 2025年
以上内容由遇见数据集搜集并总结生成



