MedQ-DEG-Bench

github2026-03-16 更新2026-03-17 收录

下载链接：

https://github.com/liujiyaoFDU/MedQ-DEG

下载链接

链接失效反馈

官方服务：

资源简介：

MedQ-DEG-Bench是一个用于评估医疗视觉语言模型（VLMs）在各种图像退化情况下的鲁棒性的综合基准。在真实临床场景中，医疗图像常因设备限制、患者运动或采集伪影而质量下降。该基准系统地测量了此类退化如何影响VLM的诊断性能。

MedQ-DEG-Bench is a comprehensive benchmark designed to evaluate the robustness of medical vision-language models (VLMs) under various image degradation scenarios. In real clinical settings, medical images often suffer from quality degradation due to device limitations, patient motion, or acquisition artifacts. This benchmark systematically measures how such degradations affect the diagnostic performance of VLMs.

创建时间：

2026-03-06

原始信息汇总

MedQ-DEG-Bench 数据集概述

数据集简介

MedQ-DEG-Bench 是一个用于评估医学视觉语言模型在图像质量退化情况下鲁棒性的综合性基准。该基准旨在系统性地衡量现实临床场景中因设备限制、患者运动或采集伪影导致的图像质量退化对视觉语言模型诊断性能的影响。

关键特征

系统性退化模拟：涵盖7种医学成像模态下的18种临床相关退化类型。
多严重程度评估：每种退化均应用了轻度与重度两个严重级别，以量化鲁棒性梯度。
大规模基准：包含24,894个样本，涵盖退化图像和干净的参考图像。
多源聚合：样本来源于3个已建立的医学视觉问答数据集。
即插即用评估：与VLMEvalKit集成，支持无缝模型评估。

数据集构成

数据划分	样本数量	描述
`MedQDEGBench_simulate_dev`	10,392	退化图像 - 开发集
`MedQDEGBench_simulate_test`	10,196	退化图像 - 测试集
`MedQDEGBench_good_dev`	2,153	干净参考图像 - 开发集
`MedQDEGBench_good_test`	2,153	干净参考图像 - 测试集

医学成像模态

模态	描述
CT	计算机断层扫描
MRI	磁共振成像
X-ray	X射线摄影
Ultrasound	超声成像
Endoscopy	内窥镜成像
Dermoscopy	皮肤镜成像
Histopathology	组织病理学成像

退化类型

模拟了5个类别下的18种临床相关退化类型，每种退化均应用了轻度和重度两个严重级别。

伪影 (7种类型，模态特定)

退化类型	模态	描述
有限角度重建	CT	角度采样不完整，产生条纹和阴影伪影
稀疏视图重建	CT	正弦图测量子采样，导致环形伪影和分辨率损失
偏置场伪影	MRI	平滑、空间变化的强度不均匀性，模拟B1场非均匀性
欠采样伪影	MRI	加速k空间采集导致混叠和重影
重影伪影	MRI	周期性运动引起的沿相位编码方向的吉布斯振铃
血细胞伪影	Histopathology	红细胞样圆形遮挡，模拟出血污染
暗点伪影	Histopathology	不规则形状的暗区，模拟气泡或染色沉淀物

运动干扰 (2种类型，通用)

退化类型	描述
物体旋转	平面内仿射旋转，模拟患者重新定位或机架未对准
物体移动	随机平面内平移，模拟患者位移

强度抖动 (3种类型，通用)

退化类型	描述
亮度调整	均匀像素强度偏移，模拟曝光过度或不足
曝光变化	非线性伽马校正，模拟传感器增益变化
对比度降低	动态范围压缩，模拟次优的窗宽/窗位设置

噪声 (2种类型)

退化类型	模态	描述
高斯噪声	通用	零均值各向同性高斯噪声，模拟热探测器噪声
低剂量噪声	CT	应用于正弦图域的泊松噪声模型，模拟剂量降低的采集

分辨率与模糊 (4种类型)

退化类型	模态	描述
低分辨率	通用	下采样和上采样，模拟降低的空间分辨率
运动模糊	通用	方向性卷积核，模拟相机或患者运动
高斯模糊	通用	各向同性高斯低通滤波器，模拟光学散焦
气泡	Histopathology	半透明圆形区域，模拟盖玻片下的气泡

评估指标

基准提供多维度的准确性分析：

总体准确性：所有样本的聚合性能。
按模态：跨7种医学成像模态的性能细分。
按退化类型：18种退化类型各自的准确性。
按严重级别：轻度、重度和干净条件之间的比较。
按源数据集：不同来源医学视觉问答数据集的性能。
按能力：不同医学能力维度（例如，高级和中级能力）的性能。

数据访问

MedQ-DEG-Bench 数据集可通过 Hugging Face 获取：https://huggingface.co/datasets/jiyaoliufd/MedQ-DEG-Bench

引用

如果研究中使用 MedQ-DEG-Bench，请引用论文： bibtex @article{liu2026medq, title={MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations}, author={Jiyao Liu and Junzhi Ning and Chenglong Ma and Wanying Qu and Jianghan Shen and Siqi Luo and Jinjie Wei and Jin Ye and Pengze Li and Tianbin Li and Jiashi Lin and Hongming Shan and Xinzhe Luo and Xiaohong Liu and Lihao Liu and Junjun He and Ningsheng Xu}, journal={arXiv preprint arXiv:2603.07769}, year={2026} }

许可证

本项目采用 Apache License 2.0 许可证。

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，图像质量退化是影响视觉语言模型诊断性能的关键挑战。MedQ-DEG-Bench的构建采用了系统化的模拟方法，从三个成熟的医学视觉问答数据集中聚合样本，覆盖了计算机断层扫描、磁共振成像等七种医学影像模态。研究团队精心设计了十八种临床相关的退化类型，涵盖伪影、运动干扰、强度抖动、噪声及分辨率模糊五大类别，每种退化均施加了轻度和严重两个严重程度级别，从而生成了包含24,894个样本的大规模基准数据集，其中既包含退化图像也包含清洁参考图像。

使用方法

对于研究者而言，利用该数据集进行评估流程清晰便捷。数据集已托管于Hugging Face平台，可直接访问获取。评估工作主要通过与VLMEvalKit集成来完成，用户安装该工具包后，可通过简单的命令行指令，指定待评估的模型与特定的数据集划分（如退化测试集或清洁参考测试集），并配置并行处理等参数即可启动自动化评估。该框架支持复用已有结果以避免重复计算，并输出涵盖多维度指标的详细分析报告，从而高效地衡量模型在不同退化条件下的诊断鲁棒性。

背景与挑战

背景概述

在医学人工智能领域，视觉语言模型（VLMs）的临床应用日益广泛，但其对图像质量退化的鲁棒性评估尚缺乏系统性标准。MedQ-DEG-Bench基准数据集由复旦大学、上海人工智能实验室等机构的研究团队于2025年创建，旨在系统评估医学VLMs在面对临床常见图像退化时的性能稳定性。该数据集聚焦于解决医学视觉问答任务中因设备限制、患者运动及采集伪影导致的图像质量下降问题，通过模拟18种临床相关退化类型，覆盖CT、MRI等7种医学影像模态，共计24,894个样本。其核心研究在于揭示模型在退化条件下的校准偏移、悬崖效应等关键现象，为提升模型在真实临床环境中的可靠性与安全性提供了重要依据。

当前挑战

该数据集致力于应对医学视觉语言模型在图像退化条件下的鲁棒性评估挑战，具体涉及模型在诊断任务中面对质量受损图像时性能骤降的量化难题。构建过程中的挑战主要体现在多模态医学图像退化仿真的复杂性上，需精确模拟如CT有限角重建、MRI偏置场伪影等18种临床相关退化类型，并确保其在轻度与严重两个等级上的真实性。此外，整合来自多个现有医学VQA数据源的样本，并保持退化模拟与原始任务的一致性，亦对数据集的构建提出了较高要求。

常用场景

经典使用场景

在医学影像分析领域，图像质量退化是临床实践中普遍存在的挑战，源于设备限制、患者运动或采集伪影。MedQ-DEG-Bench数据集通过系统模拟18种临床相关的退化类型，覆盖CT、MRI等七种成像模态，为评估医学视觉语言模型在退化条件下的鲁棒性提供了标准化测试平台。研究人员利用该数据集，能够量化模型在不同退化严重程度下的性能衰减，揭示模型在真实医疗环境中的可靠性边界。

解决学术问题

该数据集致力于解决医学人工智能中模型鲁棒性评估的空白问题。传统研究多关注模型在理想图像上的性能，而忽视了临床中广泛存在的图像质量问题。MedQ-DEG-Bench通过构建大规模、多维度退化样本，使得学术界能够系统探究退化如何影响模型的诊断准确性、置信度校准以及不同临床能力维度（如感知与推理）的退化敏感性，从而推动建立更安全、可信的医疗人工智能评估标准。

实际应用

在实际临床部署中，医学视觉语言模型需要面对各种非理想成像条件。该数据集的应用场景直接关联于模型的前期验证与持续监控。医疗机构或AI开发商可以借助此基准，在模型上线前评估其对特定伪影（如MRI中的偏置场伪影）或噪声（如低剂量CT噪声）的耐受性，从而筛选出更适合实际工作流程的模型，或针对性地开发增强技术以提升模型在复杂环境下的诊断稳定性。

数据集最近研究