MedSynVQA-5K-internvl-glm

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/MedVLSynther/MedSynVQA-5K-internvl-glm

下载链接

链接失效反馈

官方服务：

资源简介：

MedSynVQA是一个针对医疗视觉问答任务的数据集，包含了完整的训练集和多个不同大小的子集，用于RLVR和SFT训练。这些数据集以图像和文本为模态，包含了问题、多个选项、正确答案、完整答案和推理过程（可选）。此外，还有针对生成器和验证器选择的消融研究的数据集。

创建时间：

2025-10-22

原始信息汇总

MedSynVQA-5K-internvl-glm 数据集概述

数据集基本信息

数据集名称: MedSynVQA-5K-internvl-glm
许可证: Apache 2.0
模态: 图像-文本
样本数量: 5K样本

数据集用途

主要用途: 生成器选择消融实验
实验类型: 医学视觉语言问答的消融研究
训练支持: 支持RLVR/SFT训练

技术配置

生成器: InternVL-3.5 38B
验证器: GLM-4.5V 108B
配置说明: InternVL→GLM验证器的生成器选择消融实验

数据格式

python { "images": [PIL.Image], # 图像列表 "question": str, # 问题文本 "options": Dict[str, str], # 多项选择选项 "answer_label": str, # 正确答案标签（A、B、C、D、E） "answer": str, # 完整答案文本 "reasoning": str, # 思维链推理（可选） "dataset_name": str, # 源数据集名称 "dataset_index": int # 唯一样本标识符 }

相关资源

项目代码: https://github.com/UCSC-VLAA/MedVLSynther
项目页面: https://ucsc-vlaa.github.io/MedVLSynther/
完整数据集: https://huggingface.co/datasets/MedVLSynther/MedVLSynther-13K

搜集汇总

数据集介绍

构建方式

在医学视觉问答领域，数据集的构建过程融合了前沿的多模态生成与验证技术。该数据集采用InternVL-3.5 38B模型作为问题生成器，配合GLM-4.5V 108B模型担任验证器，通过双阶段流程确保数据质量。生成阶段基于医学图像内容自动产生视觉问答对，验证阶段则对生成内容进行严格筛选，最终形成包含五千个样本的标准化数据集。这种构建方法特别针对生成器选择消融实验设计，为研究不同视觉语言模型的生成能力提供了对比基准。

特点

该数据集的核心特征体现在其专业领域覆盖与结构化设计。所有样本均包含医学图像与文本问答对，支持多模态学习任务。数据格式统一规范，除基础问答内容外，还提供多选题选项、完整答案文本及可选的思维链推理过程。每个样本标注了原始数据集来源和唯一索引，便于追溯与分析。作为消融实验专用子集，其独特价值在于通过固定验证器条件下变更生成器的设计，为探究模型架构对医学视觉问答性能的影响提供了精准实验环境。

使用方法

基于该数据集的特性，研究人员可通过标准接口快速加载并投入实验。使用HuggingFace数据集库的load_dataset函数即可直接调用，支持与主流深度学习框架无缝集成。数据加载后呈现为包含图像、问题、选项、答案标签、完整答案、推理链条等字段的结构化字典，可直接用于强化学习视觉推理或监督微调任务。该数据集特别适用于医学视觉语言模型的消融研究，通过对比不同生成器在相同验证标准下的表现，深入探索多模态模型在医疗领域的性能边界。

背景与挑战

背景概述

随着医疗人工智能领域的深入发展，多模态医学视觉问答任务对高质量标注数据的需求日益迫切。MedSynVQA-5K-internvl-glm数据集由UCSC-VLAA研究团队于2024年构建，作为MedVLSynther项目的重要组成部分，该数据集专为医学视觉语言模型的可控生成与验证机制研究而设计。通过采用InternVL-3.5作为生成器与GLM-4.5V作为验证器的创新架构，该数据集致力于解决医学图像理解与自然语言推理的深度融合问题，为医疗诊断辅助系统的开发提供了关键数据支撑。

当前挑战

在医学视觉问答领域，数据稀缺与标注质量始终是核心难题。该数据集构建过程中面临生成器与验证器协同优化的技术挑战，需要平衡生成样本的多样性与医学准确性。多模态对齐的复杂性要求图像特征与文本语义实现精准映射，而医学专业知识的融入则需克服领域术语与临床逻辑的表达障碍。验证机制的设计需确保生成内容符合医学规范，同时维持模型在罕见病例上的推理能力，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在医学视觉语言理解领域，MedSynVQA-5K-internvl-glm数据集作为消融实验的关键组成部分，主要用于评估不同视觉语言模型在生成器选择方面的性能差异。该数据集通过InternVL-3.5模型生成医学图像问答对，并由GLM-4.5V模型进行验证，为研究者提供了标准化测试基准。其典型应用场景包括医学视觉问答模型的对比分析、生成器架构的优化评估，以及多模态医学人工智能系统的迭代开发过程。

衍生相关工作

基于该数据集衍生的经典研究包括多模态医学预训练框架MedVLSynther、视觉语言验证器架构优化等工作。这些研究进一步拓展了医学视觉问答在细粒度诊断、跨模态检索等方向的应用边界。相关成果为后续医学大语言模型与视觉模型的融合创新奠定了理论基础，催生了新一代智能医疗诊断系统的技术演进。

数据集最近研究