KorMedMCQA-V
收藏github2026-02-17 更新2026-02-18 收录
下载链接:
https://github.com/baeseongsu/kormedmcqa_v
下载链接
链接失效反馈官方服务:
资源简介:
KorMedMCQA-V是一个韩国医学执照考试风格的多模态多项选择问答基准数据集,用于评估视觉-语言模型(VLMs)。该数据集包含1,534个问题和2,043张相关图片,来自2012年至2023年的韩国医学执照考试,其中约30%的问题包含多张图片,需要跨图片证据整合。图片涵盖多种临床模态,包括X光、计算机断层扫描(CT)、心电图(ECG)、超声波、内窥镜和其他医学视觉内容。
KorMedMCQA-V is a multimodal multiple-choice question answering (MCQA) benchmark dataset modeled after the Korean medical licensing examination, designed for evaluating vision-language models (VLMs). This dataset comprises 1,534 questions and 2,043 associated images sourced from Korean medical licensing examinations administered between 2012 and 2023. Approximately 30% of the questions involve multiple images, necessitating the integration of evidence across different images. The images cover a wide range of clinical modalities, including X-rays, computed tomography (CT), electrocardiograms (ECG), ultrasound scans, endoscopy imagery, and other types of medical visual content.
创建时间:
2026-02-12
原始信息汇总
KorMedMCQA-V 数据集概述
数据集基本信息
- 数据集名称:KorMedMCQA-V
- 数据集类型:多模态基准测试数据集
- 核心用途:用于评估视觉-语言模型在韩国医师资格考试风格的多模态多项选择题上的表现
- 数据来源:韩国医师资格考试(2012-2023年)
- 公开状态:已公开发布
数据构成
- 问题数量:1,534 个问题
- 关联图像数量:2,043 张图像
- 多图像问题比例:约 30%(需要跨图像证据整合)
- 图像覆盖的临床模态:X光、计算机断层扫描(CT)、心电图(ECG)、超声、内窥镜及其他医学视觉图像
评估基准与结果
- 评估模型数量:超过 50 个视觉-语言模型
- 模型类别:涵盖专有模型和开源模型,包括通用模型、医学专用模型和韩语专用模型
- 评估协议:统一的零样本评估协议
- 关键性能指标:
- 最佳专有模型(Gemini-3.0-Pro)准确率:96.9%
- 最佳开源模型(Qwen3-VL-32B-Thinking)准确率:83.7%
- 最佳韩语专用模型(VARCO-VISION-2.0-14B)准确率:43.2%
- 主要发现:
- 面向推理的模型变体比指令调优的对应模型有高达 +20 个百分点的提升。
- 医学领域专业化相对于强大的通用基线模型带来的增益不一致。
- 所有模型在多图像问题上的表现均下降。
- 不同成像模态间的性能存在显著差异。
数据集定位与关联
- 补充基准:是对纯文本基准 KorMedMCQA 的补充。
- 统一评估套件:与 KorMedMCQA 共同构成了一个用于评估韩语医学推理(涵盖纯文本和多模态条件)的统一评估套件。
获取与使用
- 数据集地址:https://huggingface.co/datasets/seongsubae/KorMedMCQA-V
- 代码仓库:https://github.com/baeseongsu/kormedmcqa_v
- 论文地址:https://arxiv.org/abs/2602.13650
- 排行榜地址:https://kormedmcqa-v.github.io/
- 许可证:数据集采用 CC BY-NC-SA 4.0 许可证(https://creativecommons.org/licenses/by-nc-sa/4.0/)
引用信息
如果研究中使用此基准,请引用论文:
@article{choi2026kormedmcqav, title={KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination}, author={Choi, Byungjin and Bae, Seongsu and Kweon, Sunjun and Choi, Edward}, journal={arXiv preprint arXiv:2602.13650}, year={2026} }
搜集汇总
数据集介绍
构建方式
在医学人工智能领域,构建能够全面评估模型能力的基准数据集至关重要。KorMedMCQA-V数据集源自2012年至2023年韩国医师执照考试的真实试题,共包含1,534道选择题,并关联了2,043幅医学图像。这些图像覆盖了X光、计算机断层扫描、心电图、超声、内窥镜等多种临床影像模态,其中约30%的题目涉及多幅图像,要求模型具备跨图像证据整合能力。数据集的构建过程严格遵循医学考试的专业标准,确保了题目与图像在临床诊断场景中的真实性与相关性,为评估视觉-语言模型在韩语医学多模态推理任务上的表现提供了可靠基础。
特点
该数据集的核心特征在于其多模态与跨文化专业性。作为首个专注于韩语医学领域的视觉-语言基准,它不仅整合了丰富的医学影像数据,还特别强调了多图像问题的设置,模拟了真实临床诊断中需要综合多种检查结果的复杂情境。数据集题目设计严谨,完全基于韩国医师执照考试的权威内容,确保了医学知识的准确性与时效性。此外,通过涵盖从通用模型到医学专用模型、韩语专用模型等超过50个模型的基准测试,该数据集揭示了模型在医学影像理解、韩语语义解析及跨模态推理等方面存在的显著性能差异,为后续研究提供了明确的改进方向。
使用方法
研究人员可通过官方提供的代码库便捷地使用该数据集进行模型评估。数据集已托管于Hugging Face平台,支持通过Python API直接加载。评估框架设计灵活,允许用户通过命令行或脚本调用,指定不同的模型、数据子集(如doctor)与分割(如test_full),并可调整生成参数如温度与最大令牌数。对于开源模型,评估支持通过vLLM等服务进行;对于专有模型,则通过相应的API密钥连接。该框架实现了统一的零样本评估协议,确保不同模型间的比较公平一致,并可通过限制样本数量进行快速调试,极大便利了视觉-语言模型在韩语医学场景下的性能测评与迭代研究。
背景与挑战
背景概述
随着多模态人工智能在医疗领域的深入应用,评估模型在复杂临床场景下的综合推理能力成为关键研究方向。KorMedMCQA-V数据集由Byungjin Choi、Seongsu Bae等研究人员于2026年创建,旨在构建一个基于韩国医师执照考试的多模态问答基准。该数据集整合了2012年至2023年间的1534道试题及其关联的2043幅医学图像,涵盖X光、计算机断层扫描、心电图等多种临床影像模态,其中约30%的问题涉及跨图像证据整合。作为文本基准KorMedMCQA的多模态扩展,该数据集为评估视觉-语言模型在韩语医疗语境下的诊断与推理能力提供了标准化测试平台,推动了跨语言医疗人工智能的发展。
当前挑战
该数据集致力于解决多模态医疗问答中的核心挑战,即模型如何融合异构的医学图像与文本信息以进行精准临床决策。构建过程中的主要困难在于高质量多模态数据的采集与标注,需从历年考试中提取并匹配图像-问题对,同时确保涵盖多样化的影像模态与复杂的多图像关联场景。此外,数据集的构建还需克服医学专业知识的壁垒,保证试题与图像在医学意义上的准确性与一致性,并为不同模型家族设计统一的零样本评估协议,以公平衡量其在跨模态推理任务上的真实性能。
常用场景
经典使用场景
在医学人工智能领域,KorMedMCQA-V数据集为评估视觉-语言模型在韩国医学执照考试环境下的多模态推理能力提供了标准化测试平台。该数据集整合了涵盖X射线、计算机断层扫描、心电图等多种临床影像的1534道选择题,其中约30%的问题涉及多图像证据整合,这要求模型不仅理解单一图像内容,还需进行跨图像的关联分析。研究者通常利用该数据集在零样本设置下对模型进行基准测试,以衡量其在复杂医学视觉场景中的诊断辅助潜力。
实际应用
在实际医疗场景中,KorMedMCQA-V数据集所支撑的技术可应用于开发智能医学诊断辅助系统。此类系统能够帮助医生快速解读医学影像,并结合患者病史文本信息提供初步诊断参考,尤其在资源有限的地区或用于医学教育模拟训练中。数据集对多图像问题的涵盖也模拟了真实临床中需要综合多种检查结果进行判断的复杂情况,为构建更贴近实际工作流程的辅助工具奠定了基础。
衍生相关工作
围绕KorMedMCQA-V数据集,已衍生出一系列探索视觉-语言模型在专业领域性能的经典研究工作。例如,研究比较了通用模型、医学专用模型以及韩语专用模型在该基准上的表现差异,揭示了领域专业化与语言适配对性能的影响。此外,针对数据集中多图像问题和不同影像模态的分析,催生了关于模型跨模态推理机制与鲁棒性改进的新研究方向,推动了医学多模态人工智能模型架构与训练策略的创新。
以上内容由遇见数据集搜集并总结生成



