MedSynVQA-13K

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/MedVLSynther/MedSynVQA-13K

下载链接

链接失效反馈

官方服务：

资源简介：

MedSynVQA是一个用于医学视觉问答（VQA）任务的完整训练集，支持RLVR训练。它还包括多个子集，分别为10K、5K、2K和1K样本的训练子集，以及针对不同实验设置的额外子集，如生成器和验证器选择的消融研究、PMC-VQA风格提示生成的子集和为SFT训练生成的子集。

创建时间：

2025-10-22

原始信息汇总

MedSynVQA-13K 数据集概述

基本信息

许可证: Apache 2.0
模态: 图像-文本
用途: 医学视觉语言问答，支持RLVR/SFT训练

数据集描述

完整名称: MedSynVQA
生成器: GLM-4.5V 108B
验证器: Qwen2.5-VL 72B
描述: 用于医学视觉问答的完整训练集（用于RLVR）

数据格式

python { "images": [PIL.Image], # 图像列表 "question": str, # 问题文本 "options": Dict[str, str], # 多项选择选项 "answer_label": str, # 正确答案标签（A、B、C、D、E） "answer": str, # 完整答案文本 "reasoning": str, # 思维链推理（可选） "dataset_name": str, # 源数据集名称 "dataset_index": int # 唯一样本标识符 }

使用方式

python from datasets import load_dataset

加载训练数据集

train_dataset = load_dataset("MedVLSynther/MedSynVQA-13K")

搜集汇总

数据集介绍

构建方式

在医学视觉语言问答领域，MedSynVQA-13K数据集采用前沿的大规模视觉语言模型进行自动化构建。该数据集通过GLM-4.5V 108B模型生成初始样本，并经由Qwen2.5-VL 72B模型执行严格的验证流程，形成包含图像-文本多模态数据的完整训练集。这种双重模型协作机制有效保障了数据质量，同时通过消融实验子集的设计，系统性地验证了生成器与验证器不同组合对数据可靠性的影响。

特点

该数据集最显著的特征在于其多维度实验设计架构，不仅提供全量13K训练样本，还包含从1K到10K的渐进式规模子集，以及针对生成器选择、验证器配置和提示策略的专项对比集合。数据格式采用标准化结构，每项样本均包含医学图像、问题文本、多选选项、答案标签及详尽的推理过程，这种设计特别适用于强化学习与监督微调相结合的复杂训练场景。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，使用标准接口即可获取完整的图像-文本配对数据。数据集支持端到端的医学视觉问答模型训练，其统一的数据结构便于实现多任务学习框架。特别值得注意的是，该数据集提供的链式推理字段为开发可解释性医疗AI系统提供了重要支撑，同时各消融实验子集为模型架构比较研究奠定了坚实基础。

背景与挑战

背景概述

医学视觉语言问答领域长期面临高质量标注数据稀缺的困境，制约着多模态大模型在临床诊断辅助系统中的应用。MedSynVQA-13K数据集由UCSC-VLAA研究团队于2024年创建，其核心研究目标是通过合成数据生成技术构建大规模医学视觉问答训练集。该数据集采用GLM-4.5V 108B作为生成器与Qwen2.5-VL 72B作为验证器的双重质量保障机制，有效缓解了医学领域专业标注成本高昂的瓶颈，为医疗多模态模型的强化学习与指令微调提供了关键数据支撑。

当前挑战

医学视觉问答领域需应对专业医学图像解析与临床知识推理的双重挑战，要求模型准确识别影像特征并关联病理机制。在数据集构建过程中，生成式模型面临医学术语准确性与临床逻辑一致性的验证难题，需通过多轮验证机制确保合成数据的医学可靠性。同时，数据分布均衡性控制与罕见病症案例覆盖构成重要挑战，需要精细设计生成策略以避免模型偏见。不同模态对齐质量直接影响问答性能，这对图像-文本语义匹配精度提出了更高要求。

常用场景

经典使用场景

在医学视觉语言问答领域，MedSynVQA-13K数据集为强化学习与监督微调提供了关键训练支撑。其多模态架构通过图像与文本的协同编码，使模型能够解析医学影像中的病理特征并生成专业诊断描述。该数据集特别适用于构建端到端的医疗问答系统，模型通过理解放射学图像与临床问题之间的复杂关联，输出具有医学准确性的多选项答案。

实际应用

在临床辅助诊断场景中，该数据集训练的模型可协助医师进行影像学判读。通过整合医学图像与文本描述，系统能够快速生成鉴别诊断建议，在胸片异常检测、病理切片分析等场景中提供第二意见。其生成的多选项问答机制模拟了临床决策流程，为基层医疗机构提供了标准化诊断参考，有效辅助医疗资源均衡分配。

衍生相关工作

基于该数据集的生成验证框架，衍生出多项医疗视觉语言预训练的重要研究。其构建的GLM-Qwen混合架构为多模态大模型在医疗领域的适配提供了新范式，后续研究在此基础上发展了跨模态注意力机制优化、医学知识图谱融合等技术。这些工作共同推动了面向专业领域的视觉语言模型从通用能力向专科能力的跨越式发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集