CDBench

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/MM-CD/CDBench

下载链接

链接失效反馈

官方服务：

资源简介：

CDBench是一个综合性的多模态数据集和评估基准，用于评估多模态大型语言模型在一般性变化检测任务上的能力。该数据集整合了来自遥感、工业检查和商品检查等多个领域的不同数据集，包含超过15000对图像和超过70000个问题答案对。数据集定义了七个结构化任务，包括图像内容分类、图像内容描述、变化判别、变化定位、语义变化分类、变化描述和变化推理。

CDBench is a comprehensive multimodal dataset and evaluation benchmark designed to evaluate the capabilities of multimodal large language models in general change detection tasks. This dataset integrates diverse datasets from multiple domains including remote sensing, industrial inspection and commodity inspection, containing over 15,000 image pairs and more than 70,000 question-answer pairs. The dataset defines seven structured tasks, namely image content classification, image content description, change discrimination, change localization, semantic change classification, change description and change reasoning.

创建时间：

2025-06-05

原始信息汇总

CDBench数据集概述

基本信息

许可证: CC-BY-NC-SA 4.0
任务类别: 问答
数据规模: 10K<n<100K

数据集简介

CDBench是首个针对多模态大语言模型(MLLMs)在多领域通用变化检测任务上的综合评估基准，包含7个结构化任务和70,000+问答对。

数据集构成

数据来源

遥感数据: LEVIR-CD, SYSU-CD, CDD
工业检测: MVTec-AD, MVTec-LOCO, Visa
商品检测: GoodsAD

数据统计

数据类别	图像对数	任务数	问答对数
遥感	7,000+	7	30,000+
工业检测	5,000+	7	30,000+
商品检测	2,000+	7	10,000+
总计	14,000+	7	70,000+

核心任务

图像内容分类: 识别图像主要场景类型
图像内容描述: 生成图像详细文本描述
变化判别: 判断两幅图像是否存在显著变化
变化定位: 识别变化发生的具体位置
语义变化分类: 分类检测到的变化性质
变化描述: 提供变化事件的简明文本摘要
变化推理: 推断检测到变化的可能原因

性能对比

模型	图像分类	图像描述	变化判别	变化定位	变化分类	变化描述	变化推理	平均
Qwen-Max-Latest	57.03	79.97	55.88	72.33	61.78	64.35	65.00	65.19
ChangeAgent	96.87	76.78	78.81	76.79	77.67	70.82	69.99	77.10

相关资源

演示平台: http://demo.mm-cd.org:8880
项目官网: http://mm-cd.org

搜集汇总

数据集介绍

构建方式

在通用变化检测领域，CDBench数据集通过整合多领域资源构建而成，涵盖遥感、工业检测和商品检测三大场景。研究团队采用跨模型优化策略，从LEVIR-CD、SYSU-CD等15,000余组图像对中筛选样本，并创新性地运用CLIP模型进行场景分类。针对部分数据缺乏配对参照的问题，通过最近邻搜索算法匹配最佳参照样本，最终形成包含7大任务、70,000余问答对的标准测试集，所有数据均经过双专家交叉验证确保质量。

使用方法

研究者可通过HuggingFace平台直接加载questions.csv配置文件，其中结构化存储着问题文本、选项、答案及对应的目标图像、参考图像三元组。针对七类任务特性，建议采用分阶段评估策略：先使用Q1-Q2测试基础视觉理解能力，再通过Q3-Q7考察变化检测性能。官方提供的在线演示平台支持交互式测试，而ChangeAgent框架的检索增强生成机制可作为处理复杂语义变化任务的参考方案。

背景与挑战

背景概述

CDBench作为首个面向多模态通用变化检测的综合评估基准，由复旦大学计算机科学与人工智能学院等机构联合开发，于2025年ACM多媒体会议前夕发布。该数据集整合了遥感监测（LEVIR-CD）、工业检测（MVTec-AD）和商品检验（GoodsAD）三大领域的14,000余组图像对，构建了包含7项核心任务、70,000余问答对的大规模评估体系。其创新性体现在首次系统评估多模态大语言模型在结构化变化检测任务中的表现，并通过ChangeAgent框架实现了77.10%的平均准确率，较基线模型提升约6-7个百分点，为遥感监测、智能制造等领域的动态场景理解提供了标准化评估工具。

当前挑战

在解决领域问题层面，CDBench需应对多模态变化检测中的三大核心挑战：跨域语义差异导致的变化特征泛化难题、细粒度变化定位与粗粒度语义推理的协同优化问题，以及开放场景下变化因果推理的逻辑一致性要求。数据集构建过程中面临双重困难：原始数据中约23%的图像缺乏匹配的参考样本，需通过CLIP模型驱动的近邻搜索进行补全；为确保7类任务的评估信度，采用双专家交叉验证机制，使标注成本较单模态数据集增加近3倍。这些挑战突显了多模态时序数据分析的复杂性，也为后续研究指明了改进方向。

常用场景

经典使用场景

在遥感监测和工业质检领域，CDBench数据集通过其多模态特性为变化检测任务提供了标准化评估框架。数据集整合了来自不同领域的图像对，包括遥感影像、工业检测图像和商品变化样本，使得研究者能够在统一平台上测试模型对于场景变化的识别能力。其七项核心任务从基础的内容分类到复杂的因果推理，全面覆盖了变化检测的各个环节，为算法性能评估提供了多维度的衡量标准。

解决学术问题

该数据集有效解决了多模态大语言模型在结构化变化检测任务中评估标准缺失的学术难题。通过构建包含七万多个问答对的大规模评估集，CDBench为模型在跨域变化识别、语义级差异分析等关键问题上的性能量化提供了可靠基准。特别针对遥感影像中场景分类模糊、工业缺陷检测中细微变化难以捕捉等研究痛点，数据集设计的层次化任务体系显著提升了评估的精细度和科学性。

实际应用

在实际应用层面，CDBench支撑的ChangeAgent框架已在城市扩张监测、生产线缺陷检测等场景展现价值。其融合视觉定位与知识检索的架构，能够准确识别卫星影像中的建筑物变化，或发现精密零件表面的微小瑕疵。数据集涵盖的多领域样本使得训练模型具备跨场景适应能力，在电力设施巡检、农产品品质监控等垂直领域均有成功落地案例。

数据集最近研究