five

SynthVision

收藏
github2026-03-23 更新2026-03-26 收录
下载链接:
https://github.com/openmed-labs/synthvision
下载链接
链接失效反馈
官方服务:
资源简介:
合成医疗VQA数据集生成和VLM微调管道。包含119K医疗图像,由两个前沿VLM(Qwen 3.5和Kimi K2.5)标注,交叉验证一致性达93%,生成110K训练记录。微调3个小模型(2-3B参数)提升了所有基准测试,最佳模型平均精确匹配率提升15.0%。

Synthetic Medical VQA Dataset Generation and VLM Fine-tuning Pipeline. This pipeline includes 119K medical images, which are annotated by two state-of-the-art VLMs (Qwen 3.5 and Kimi K2.5), with a cross-validation consistency of 93%, and generates 110K training samples. Fine-tuning three small-scale models (2-3B parameters) improves performance across all benchmark tests, with the best-performing model achieving an average exact match rate increase of 15.0%.
创建时间:
2026-03-19
原始信息汇总

SynthVision 数据集概述

数据集简介

SynthVision 是一个合成医学视觉问答数据集生成与视觉语言模型微调流程。该流程使用两个前沿视觉语言模型对119K张医学图像进行标注,并通过交叉验证获得93%的一致性,最终生成了110K条训练记录。对3个小参数模型进行微调后,所有基准测试均得到提升,最佳模型的平均精确匹配率提升了15.0%。

数据规模与来源

  • 图像数量:119,000张医学图像。
  • 训练记录:110,000条。
  • 图像来源:聚合并去重自4个开放的医学数据集,包括ROCO、MultiCaRe、PathVQA和VQA-RAD。

生成流程

  1. 构建种子数据集:从源数据集中聚合并去重图像。
  2. 前沿VLM标注:通过VLM API对种子图像进行多轮临床标注,支持批量推理。
  3. 准备训练数据:合并已验证的标注、去重,并转换为ShareGPT JSONL格式。
  4. 模型微调:使用LoRA方法进行微调,并采用仅助手标签掩码。
  5. 评估:在VQA-RAD、PathVQA和SLAKE基准上使用vLLM进行批量推理评估。

微调模型与结果

对以下三个模型进行了微调,并在三个基准测试集上评估了其精确匹配率:

模型 VQA-RAD PathVQA SLAKE 平均EM 对比基线提升
Qwen3.5-2B (D) 0.5521 0.4748 0.6880 0.5716 +15.0%
Qwen2.5-VL-3B (v6) 0.5211 0.3468 0.6032 0.4904 +8.9%
Ministral-3B (D) 0.4789 0.3669 0.5664 0.4707 +9.6%

相关资源链接

  • 博客文章:https://huggingface.co/blog/OpenMed/synthvision
  • 种子图像:https://huggingface.co/datasets/OpenMed/synthvision-seeds
  • Qwen 3.5标注:https://huggingface.co/datasets/OpenMed/synthvision-annotated-qwen
  • Kimi K2.5标注:https://huggingface.co/datasets/OpenMed/synthvision-annotated-kimi
  • Qwen经Kimi验证:https://huggingface.co/datasets/OpenMed/synthvision-validated-qwen-by-kimi
  • Kimi经Qwen验证:https://huggingface.co/datasets/OpenMed/synthvision-validated-kimi-by-qwen
  • 训练数据:https://huggingface.co/datasets/OpenMed/synthvision-training
  • 微调模型
    • Qwen2.5-3B-MedVL:https://huggingface.co/OpenMed/Qwen2.5-3B-MedVL
    • Qwen3.5-2B-MedVL:https://huggingface.co/OpenMed/Qwen3.5-2B-MedVL
    • Ministral-3B-MedVL:https://huggingface.co/OpenMed/Ministral-3B-MedVL

许可证

Apache-2.0

搜集汇总
数据集介绍
main_image_url
构建方式
在医学视觉问答领域,高质量标注数据的稀缺性长期制约着模型发展。SynthVision数据集通过系统化流程构建,首先从ROCO、MultiCaRe、PathVQA和VQA-RAD四个公开医学数据集中聚合并去重119K医学图像作为种子。随后采用前沿视觉语言模型Qwen 3.5与Kimi K2.5进行多轮临床标注,通过交叉验证机制确保93%的标注一致性,最终生成110K高质量训练记录。整个流程实现了从原始图像筛选到自动化标注验证的完整闭环。
特点
该数据集的核心价值体现在其合成数据的质量与规模。其标注结果经过双模型交叉验证,达到93%的一致率,显著提升了医学视觉问答任务的可靠性。数据集涵盖放射学、病理学等多模态医学图像,问题设计贴合临床实际场景。经微调的小型模型在VQA-RAD、PathVQA和SLAKE基准测试中平均精确匹配率提升最高达15.0%,验证了数据在提升模型医学推理能力方面的有效性。所有数据遵循Apache-2.0协议开放,支持学术与工业应用。
使用方法
研究人员可通过Hugging Face平台获取分阶段数据资产,包括种子图像、双模型标注及训练数据。使用流程遵循标准化脚本:先配置Python 3.11+环境并同步依赖,按顺序执行种子构建、批量标注、训练数据准备等模块。微调阶段提供针对Qwen2.5-VL-3B、Qwen3.5-2B和Ministral-3B的独立配置,支持LoRA优化与助手掩码训练。评估环节集成vLLM批量推理,可对比基座模型与微调模型在三大医学VQA基准上的性能表现。
背景与挑战
背景概述
在医学视觉问答领域,高质量标注数据的稀缺长期制约着模型性能的突破。SynthVision数据集由OpenMed团队构建,其核心研究问题在于如何利用前沿视觉语言模型规模化生成可信赖的医学VQA数据。该数据集通过聚合ROCO、MultiCaRe、PathVQA和VQA-RAD四个开源医学数据集的图像作为种子,并借助Qwen 3.5与Kimi K2.5等先进模型进行多轮临床标注与交叉验证,最终生成了包含约11万条训练记录的大规模合成数据集。这一创新方法不仅显著提升了多个基准测试的性能,最佳模型平均精确匹配率提升达15.0%,也为数据驱动的医学人工智能研究提供了新的范式。
当前挑战
SynthVision致力于解决医学视觉问答中因专业标注成本高昂而导致的训练数据匮乏问题。其构建过程面临多重挑战:在领域层面,医学图像的理解需要深厚的专业知识,确保合成问答对在临床上的准确性与可靠性是一大难点;在技术层面,依赖大模型进行自动化标注时,需有效控制幻觉现象并实现不同模型间标注结果的高一致性,其交叉验证协议虽达到93%的同意率,但剩余分歧的处理仍需谨慎。此外,如何从异构的源数据集中去重并构建高质量的种子图像集合,以及设计高效的微调流程以将合成数据转化为模型的实际性能增益,均是构建过程中需要克服的关键技术障碍。
常用场景
经典使用场景
在医学视觉问答领域,SynthVision数据集为研究人员提供了一个大规模、高质量的合成数据资源。该数据集通过整合ROCO、MultiCaRe、PathVQA和VQA-RAD等多个开放医学图像数据集,并利用前沿视觉语言模型进行自动化标注与交叉验证,构建了包含11万条训练记录的高质量语料库。其经典使用场景在于为医学视觉语言模型的微调提供基准数据,支持模型在放射学、病理学等专业领域的视觉理解与问答任务上进行性能优化与评估。
解决学术问题
SynthVision数据集有效缓解了医学视觉问答研究中高质量标注数据稀缺的瓶颈问题。通过自动化合成与交叉验证流程,该数据集以93%的一致性水平确保了标注的可靠性,为小参数模型(如2-3B规模)的微调提供了充分的数据支持。其意义在于推动了数据高效型医学人工智能的发展,使得资源有限的研究团队也能基于合成数据训练出在VQA-RAD、PathVQA和SLAKE等基准测试上表现优异的模型,最高实现了平均精确匹配率15%的性能提升。
衍生相关工作
基于SynthVision数据集,研究社区已经衍生出多个经典的微调模型与相关研究工作。例如,OpenMed团队发布的Qwen2.5-3B-MedVL、Qwen3.5-2B-MedVL和Ministral-3B-MedVL等模型,均在公开的医学视觉问答基准上取得了显著性能改进。这些工作不仅验证了合成数据在专业领域模型训练中的有效性,也为后续研究提供了可复现的管道与模型基础,促进了医学人工智能领域开源生态的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作