MMD-Bench
收藏arXiv2026-04-06 更新2026-04-07 收录
下载链接:
https://github.com/haoxiangzhao12138/CLEAR
下载链接
链接失效反馈官方服务:
资源简介:
MMD-Bench是由中国科学院自动化研究所和百度公司联合构建的多模态评估基准,旨在测试模型在退化图像条件下的理解能力。该数据集通过对6个广泛使用的多模态基准数据集施加3种严重程度的16类现实退化(如模糊、噪声、压缩等)构建而成,覆盖了捕获、传输、环境和后处理等典型退化场景。数据集创建过程采用系统性退化模拟方法,为每类基准数据生成不同退化强度的变体,主要用于评估统一多模态模型在退化图像理解任务中的鲁棒性表现,解决现实场景中视觉信息受损导致的模型性能下降问题。
提供机构:
中国科学院自动化研究所; 百度公司
创建时间:
2026-04-06
原始信息汇总
CLEAR 数据集概述
数据集基本信息
- 数据集名称: CLEAR (Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models)
- 数据集地址: https://github.com/haoxiangzhao12138/CLEAR
- 核心用途: 用于训练和评估一个统一的、利用生成能力(图像恢复)来提升对退化图像视觉理解能力的多模态模型。
数据集内容与构成
- 训练数据: 数据集包含用于训练CLEAR模型的混合数据,具体由
corruption_mix.yaml配置文件定义,该配置结合了交错推理(interleave-reason)和文本推理(text-reason)数据集。 - 基准测试数据 (MMD-Bench): 数据集包含一个全面的退化图像基准测试,涵盖4个类别(采集、传输、环境、后处理)下的16种退化类型,每种类型有3个严重级别。数据生成脚本位于
data/corruption_datasets_create/目录下。 - 数据获取: 训练数据可通过Hugging Face下载,命令为
huggingface-cli download --resume-download --repo-type dataset CUDAOUTOFMEMORY/MMD-Bench --local-dir datasets。
数据集关联的模型与方法
- 基础框架: 基于 BAGEL 框架构建。
- 核心方法: 采用交错推理范式,模型通过学习自适应决定是否在回答问题前调用图像恢复功能。训练流程分为三个阶段:
- 监督微调 (SFT): 进行退化感知的监督微调,使用交错的
<think>/<image_restore>/<answer>推理格式。 - 桥接训练: 建立一个潜在表示桥,将去噪后的VAE潜在表示直接映射回LLM的标记空间,避免了解码再编码的开销。
- 交错GRPO: 使用组相对策略优化,结合四种奖励(准确性、格式、决策、潜在质量)来联合优化推理、生成和恢复决策。
- 监督微调 (SFT): 进行退化感知的监督微调,使用交错的
性能表现
- 主要基准: 在MMD-Bench (Hard) 基准测试上,CLEAR模型在退化图像理解任务上取得了最先进的性能。
- 关键结果: CLEAR-RL版本在多个基准测试(MMBench, MM-Vet, MMVP, CV-Bench, MMStar, RealWorldQA, R-Bench-Dis)上的平均得分达到65.26,优于所列的开源和部分闭源模型。与骨干模型Bagel相比,CLEAR-RL将干净图像到退化图像的性能下降减少了27%。
使用与评估
- 评估框架: 使用定制化的 VLMEvalKit 进行评估,该工具包支持CLEAR/BAGEL模型及退化级别的基准测试变体。
- 评估配置: 通过JSON配置文件指定模型路径、基准测试和推理模式(如交错推理、纯文本推理或仅感知增强)。
- 数据可视化: 提供了退化类型的可视化示例,位于
assets/corruption_vis.png。
相关资源
- 论文: https://arxiv.org/abs/2604.04780
- 项目主页: https://haoxiangzhao12138.github.io/CLEAR/
- 模型地址: https://huggingface.co/CUDAOUTOFMEMORY/CLEAR
- 数据地址: https://huggingface.co/datasets/CUDAOUTOFMEMORY/MMD-Bench
- 引用信息: 提供了标准的BibTeX引用格式。
搜集汇总
数据集介绍

构建方式
在构建MMD-Bench数据集时,研究者从六个广泛使用的多模态基准测试中选取图像样本,包括MMBench、MM-Vet、MMVP、CV-Bench、MMStar和RealWorldQA。这些基准测试覆盖了从粗粒度感知到细粒度推理的多种视觉理解能力。为了模拟真实世界中的图像退化现象,研究团队对每张图像应用了16种不同的退化类型,这些类型被系统性地归类为捕获、传输、环境和后处理四大类别。每种退化类型均设置了低、中、高三个严重程度等级,通过调整参数来逐步增强退化强度,从而生成了涵盖不同退化场景的多样化测试集。该数据集的构建旨在全面评估多模态模型在退化图像下的鲁棒性,并为模型优化提供详尽的性能分析基础。
使用方法
在使用MMD-Bench数据集时,研究者通常将其应用于评估多模态模型在退化图像下的性能。首先,需要将待评估模型在干净图像上进行基准测试,以获取其原始性能水平。随后,将同一模型应用于MMD-Bench中的退化图像样本,通过比较模型在干净和退化条件下的准确率差异,来量化其鲁棒性。数据集支持按退化类型、严重程度和基准类别进行分层分析,从而帮助识别模型在特定退化场景或能力维度上的薄弱环节。此外,MMD-Bench也可用于训练阶段的监督微调或强化学习,通过引入退化感知的数据来提升模型的生成与理解协同能力。使用该数据集时,应遵循原始基准的评估协议,并利用如VLMEvalKit等标准化工具以确保结果的可复现性。
背景与挑战
背景概述
MMD-Bench是由中国科学院自动化研究所与百度公司联合构建的多模态基准测试数据集,于2026年提出,旨在系统评估统一多模态模型在图像退化条件下的理解能力。该数据集的核心研究问题聚焦于现实场景中图像因模糊、噪声、压缩及光照不足等退化现象对多模态理解造成的严重干扰,揭示了现有模型生成与理解能力之间的功能割裂。通过将16种真实世界退化类型应用于六个标准多模态基准,MMD-Bench为领域提供了首个覆盖多退化严重程度、多能力维度的系统性评估工具,推动了退化图像理解研究从孤立的外部修复向模型内部生成能力协同的方向演进。
当前挑战
MMD-Bench所针对的领域挑战在于解决统一多模态模型在退化图像理解中生成与理解能力割裂的核心问题。现有模型虽兼具生成与理解架构,却无法在推理过程中自发调用生成能力以补偿退化破坏的视觉信息,导致其在退化输入上性能显著下降。构建过程中的挑战包括:需设计涵盖多退化类型与严重程度的系统性评测框架,以全面反映现实退化场景;同时,为建立生成-理解协同的训练数据,需构建退化感知的监督数据集,并生成结构化的推理轨迹以教导模型“生成后回答”的行为模式,这涉及对大规模图像-问题对进行退化施加、路径分配与高质量轨迹合成,确保数据平衡与逻辑一致性。
常用场景
经典使用场景
在真实世界视觉理解任务中,图像常因模糊、噪声、压缩或光照不足而退化,严重影响多模态模型的性能。MMD-Bench作为评估基准,通过系统性地对六个标准多模态数据集施加16种退化类型和三个严重级别,为研究者提供了量化模型在退化条件下鲁棒性的统一平台。其经典使用场景在于评测统一多模态模型在退化图像上的理解能力,尤其关注模型能否利用内部生成路径补偿视觉信息的损失,从而推动模型在自动驾驶、监控分析等实际环境中的可靠部署。
解决学术问题
MMD-Bench针对多模态模型在退化图像理解中的核心挑战,系统化地解决了模型对低层视觉线索丢失的敏感性问题。该数据集通过构建涵盖不同退化类型和严重程度的评测体系,帮助研究者识别模型在模糊、噪声等常见退化下的性能瓶颈,并促进如CLEAR等框架的发展,这些框架旨在连接模型内部的生成与理解能力,使生成路径能够主动支持推理过程。其意义在于推动了多模态鲁棒性研究的标准化,为模型在复杂真实场景中的实用化奠定了评估基础。
实际应用
在实际应用中,MMD-Bench为开发能够在恶劣视觉条件下稳定工作的多模态系统提供了关键评测工具。例如,在自动驾驶领域,车辆摄像头捕获的图像常受运动模糊或低光照影响;在移动摄影或视频会议中,图像可能经历压缩伪影或噪声干扰。通过在该数据集上评估和优化模型,可以提升系统在这些场景下的可靠性,确保模型能够准确理解退化图像中的语义内容,从而支持安全决策、实时交互等关键任务,推动多模态技术从实验室走向实际部署。
数据集最近研究
最新研究方向
在统一多模态模型领域,MMD-Bench作为评估图像退化条件下模型鲁棒性的基准,近期研究聚焦于如何有效连接模型内部的生成与理解能力以应对现实世界中的图像退化挑战。研究指出,现有统一模型虽同时具备生成与理解功能,但在处理模糊、噪声或压缩等退化图像时,两者往往功能割裂,导致性能显著下降。前沿工作通过构建退化感知训练集、引入潜在表示桥接技术以及结合交错式GRPO强化学习方法,旨在建立“生成-后回答”的推理模式,使模型能够自适应地调用生成能力恢复退化图像中的细节信息,从而提升理解准确性。这一方向不仅揭示了任务驱动优化与视觉质量的自然对齐关系,也为多模态模型在自动驾驶、监控等实际场景中的稳健部署提供了关键思路,成为当前多模态鲁棒性研究的热点。
相关研究论文
- 1CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models中国科学院自动化研究所; 百度公司 · 2026年
以上内容由遇见数据集搜集并总结生成



