DefectBench

github2026-04-10 更新2026-05-07 收录

下载链接：

https://github.com/Whitneyyyyy/DefectBench

下载链接

链接失效反馈

官方服务：

资源简介：

DefectBench是首个用于评估大型多模态模型在自动化建筑立面检查中的多维基准。它整合了12个分散的开源数据集，包含1,488张图像和4,527个缺陷实例，并评估了18种最先进的大型多模态模型在三个递进的认知维度上的表现。

DefectBench is the first multidimensional benchmark for evaluating large multimodal models in automated building facade inspection. It integrates 12 scattered open-source datasets containing 1,488 images and 4,527 defect instances, and evaluates the performance of 18 state-of-the-art large multimodal models across three progressive cognitive dimensions.

创建时间：

2026-04-09

原始信息汇总

数据集概述：DefectBench

DefectBench 是首个用于评估大型多模态模型（LMMs）在建筑立面自动检测方面的多维度基准数据集。它整合了12个零散的开源数据集，形成统一的评估资源。

核心数据规模

图像总数：1,488张
缺陷实例总数：4,527个
主要类别：4个
子类型：10个

缺陷分类体系（4大类，10子类）

主要类别	子类型	实例数量
裂缝	线性裂缝	2,042
	网状裂缝	80
材料损失	剥落	906
	起皮	51
表面污渍	腐蚀	254
	锈渍	21
	渗漏污渍	803
外部固定物	植被生长	221
	涂鸦	30
	表面污染物	119

评估维度与任务

该基准从三个递进的认知维度对LMMs进行测试：

层级	维度	任务	问题焦点
L1	语义感知	缺陷识别与计数	“什么”缺陷存在？
L2	空间定位	检测与空间推理	“在哪里”？
L3	生成式分割	像素级掩码生成	“如何”表现？

主要发现

LMMs在语义理解方面表现强劲，能有效诊断“是什么”并解析拓扑关系。
在空间定位上存在显著差距，推理型模型在坐标检测任务中性能大幅下降。
零样本生成式分割可行，通用模型在无需领域特定训练的情况下即可与专用监督网络匹敌。

评估指标

层级	任务	评估指标
L1	分类（Q1）	精确率、召回率、F1分数
L1	计数（Q2）	平均绝对误差（MAE）、相对误差
L2	检测（Q3）	精确率、召回率、F1分数
L2	空间推理（Q4）	精确率、召回率、F1分数
L3	分割（Q5）	mIoU、精确率、召回率、F1分数、像素准确率（PA）

数据集用途与许可

该数据集及基准仅限学术研究目的使用，同时需遵守各原始数据集的许可条款。

搜集汇总

数据集介绍

构建方式

在建筑立面检测领域，现有数据集常呈现碎片化与任务单一化的特征。DefectBench通过系统整合12个开源数据集，构建了包含1,488张图像与4,527个缺陷实例的层级化基准。标注体系涵盖四大主类与十种子类型，并针对每张图像同时提供边框标注、语义分类与像素级分割掩码，形成统一的多维度标注框架。

特点

该基准的创新之处在于其三维认知评估架构：语义感知层评估缺陷识别与计数能力，空间定位层考察目标检测与空间关系推理，生成式分割层则检验像素级掩码生成效果。基于该框架对18种顶尖多模态大模型的评测揭示了显著能力差异——模型在语义理解方面表现优异，但在坐标级定位任务中普遍存在性能瓶颈。

使用方法

研究者可通过GitHub仓库获取完整流水线。数据图像存放于data_sample/images目录，对应标签与掩码分别位于labels与masks文件夹。评估流程涵盖视觉问答生成（运行vlm_generation脚本）与多层级性能度量（调用evaluate_vlm_qa等代码），支持对分类、计数、检测、空间推理和分割任务的全方位指标计算。

背景与挑战

背景概述

建筑立面作为城市构筑物的首要视觉界面，其结构病理检测长期依赖于人工巡检，存在效率低下与主观性强等固有问题。随着大型多模态模型（LMMs）在视觉-语言联合推理领域取得突破性进展，将人工智能引入建筑健康诊断成为可能。在这样的技术浪潮下，2025年，由香港科技大学（广州）钟晖、郑欣湖等研究者领衔的团队，联合香港科技大学与香港大学的学者，推出了DefectBench基准数据集。该数据集首次构建了面向建筑立面结构病理推理的多维度评估体系，整合了12个碎片化的开源数据集，形成1488张图像与4527个缺陷实例，覆盖裂缝、材料剥落、表面污渍及外部附着物四大主类及十种亚型。DefectBench的出现，不仅为量化LMMs在工程视觉理解中的真实能力提供了标准化测试平台，更将计算机视觉研究从通用场景延伸至具有严格领域约束的土木工程实践，显著推动了多模态智能在基础设施维护中的理论探索与应用转化。

当前挑战

DefectBench所应对的领域挑战源于建筑外观缺陷检测的复杂性：缺陷形态各异、尺度不一，且常与背景纹理高度混淆，使得模型需同时具备精细语义感知与精准空间定位能力。不同于传统视觉任务，缺陷的严重程度判定与结构风险评估要求模型超越简单的分类边界，进行物理层面的推理，这对现有LMMs构成了严峻考验。在数据集构建过程中，团队面临了多源异构数据的统一化难题——不同来源的标注格式、分辨率及缺陷定义存在显著差异，必须设计严谨的语义对齐策略与层级化标注管线。此外，为确保评估结果的科学性与可重复性，研究团队需在标注质量把控、模态间一致性校验以及多维度认知任务（语义感知、空间定位、生成式分割）的标准化设计上投入大量精力，这对数据治理与实验范式提出了前所未有的精细度要求。

常用场景

经典使用场景

在大型多模态模型的视觉推理能力评估领域，DefectBench数据集作为首个面向建筑立面结构缺陷检测的多维度层次化基准，被广泛用于评测前沿多模态大模型在结构性病理推理上的表现。该数据集将12个零散的开源数据集统一整合为1,488张图像与4,527个缺陷实例，并通过语义感知、空间定位及生成式分割三个递进认知维度设计任务链。经典使用场景涵盖从缺陷类别识别与计数（L1）、检测与拓扑空间推理（L2）到像素级掩码生成（L3）的完整评估流程，为量化模型从‘看到缺陷是什么’到‘缺陷如何呈现’的认知能力提供了系统化测试平台。

实际应用

在工程实践中，DefectBench所构建的评估范式直接服务于建筑自动化巡检与结构健康管理的实际需求。其统一的缺陷分类体系（涵盖裂缝、材料剥落、表面污渍及外露构件等四大主类与十种子类）可实现不同损伤形态的标准化识别。实际应用场景包括基于无人机巡检图像的全自动建筑立面缺陷检测、历史建筑非破坏性评估、以及桥梁与隧道等基础设施的结构安全筛查。通过量化模型在空间推理和像素级分割上的能力，该数据集有助于推动从人工目视检查向智能诊断系统的实质性转型，显著提升检测效率与一致性。

衍生相关工作

DefectBench的提出催生了多个方向的衍生研究工作。在模型评估层面，研究者基于其层次化任务框架设计了更细粒度的视觉推理能力分析协议；在多模态学习领域，部分工作借鉴其缺陷分类体系训练面向建筑结构的专用视觉语言模型。此外，该数据集统一的数据格式与注释规范促进了多源缺陷检测数据的融合利用，为开发跨场景迁移学习策略提供了标准化基准。在应用延伸上，出现了以DefectBench为基底的城市级建筑健康图谱构建、多模态报告自动生成等创新探索，形成了从基准测试到工程落地的完整研究链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集