SEMSEGBENCH & DETECBENCH

Name: SEMSEGBENCH & DETECBENCH
Creator: 德国曼海姆大学数据与网络科学组, 德国马普学会计算机科学研究所
Published: 2025-05-23 23:17:45
License: 暂无描述

arXiv2025-05-23 更新2025-05-28 收录

下载链接：

https://github.com/shashankskagnihotri/benchmarking_reliability_generalization

下载链接

链接失效反馈

官方服务：

资源简介：

SEMSEGBENCH和DETECBENCH是针对语义分割和目标检测模型可靠性和泛化能力的基准测试工具。它们评估了76个分割模型在四个数据集上的表现以及61个目标检测器在两个数据集上的表现，评估了它们在各种对抗性攻击和常见干扰下的性能。这些基准测试工具是开源的，并提供了一个全面的评估资源，旨在促进未来对模型可靠性的研究。

SEMSEGBENCH and DETECBENCH are benchmarking tools designed to evaluate the reliability and generalization capability of semantic segmentation and object detection models. They assess the performance of 76 segmentation models across four datasets and 61 object detectors across two datasets, testing their performance under various adversarial attacks and common corruptions. These benchmarking tools are open-source and provide a comprehensive evaluation resource aimed at facilitating future research on model reliability.

提供机构：

德国曼海姆大学数据与网络科学组, 德国马普学会计算机科学研究所

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

SEMSEGBENCH和DETECBENCH数据集是基于mmsegmentation和mmdetection框架构建的，涵盖了语义分割和目标检测领域最常用的模型架构和数据集。构建过程中，研究者对76个语义分割模型和61个目标检测模型进行了全面评估，包括在多种对抗攻击和常见图像损坏条件下的性能测试。数据集的构建采用了标准化的评估流程，确保结果的可比性和可重复性。

特点

该数据集的主要特点在于其全面性和深度。它不仅涵盖了传统的独立同分布(i.i.d.)性能评估，还首次统一了对分布偏移(OOD)鲁棒性和对抗鲁棒性的评估。数据集包含6139个评估结果，提供了丰富的性能指标，如mIoU、mAP等，并引入了新的可靠性度量(ReM)和泛化能力度量(GAM)来简化分析。此外，数据集特别关注了模型架构设计选择（如主干网络类型、模型容量等）对鲁棒性的影响。

使用方法

该数据集可用于多方面的研究：1) 评估模型在对抗攻击和常见损坏条件下的鲁棒性；2) 分析不同架构设计对模型可靠性和泛化能力的影响；3) 作为基准测试工具比较新方法的性能。使用时可从GitHub仓库获取预计算的评估结果，或利用提供的工具重新运行特定评估。数据集支持对语义分割和目标检测模型的全面分析，特别适合研究超越分类任务的模型可靠性问题。

背景与挑战

背景概述

SEMSEGBENCH & DETECBENCH是由德国曼海姆大学数据与网络科学组以及马克斯·普朗克信息学研究所的研究团队于2025年提出的数据集，旨在评估语义分割和目标检测模型的可靠性和泛化能力。该数据集针对深度学习模型在安全关键领域应用中的不稳定行为，特别是在分布偏移和对抗攻击下的表现。通过涵盖76个语义分割模型和61个目标检测模型，该数据集为相关领域的研究提供了全面的基准测试工具。

当前挑战

该数据集面临的挑战包括：1) 语义分割和目标检测模型在对抗攻击和分布偏移下的表现不佳，特别是在ℓ∞-范数约束下的对抗攻击中，模型性能显著下降；2) 构建过程中需要处理大量计算资源，尤其是在对抗攻击和分布偏移评估方面；3) 模型在合成扰动和真实世界扰动之间的泛化能力存在差异，需要进一步验证其相关性。

常用场景

经典使用场景

SEMSEGBENCH和DETECBENCH数据集在计算机视觉领域，特别是语义分割和目标检测任务中，被广泛用于评估模型的可靠性和泛化能力。这些数据集通过提供多样化的对抗攻击和常见损坏样本，帮助研究人员全面测试模型在分布偏移和对抗性扰动下的表现。例如，在自动驾驶和医学图像分析等安全关键领域，这些数据集能够验证模型在复杂环境中的稳定性和鲁棒性。

衍生相关工作

SEMSEGBENCH和DETECBENCH数据集衍生了一系列相关研究，特别是在对抗性防御和模型鲁棒性优化方面。例如，基于这些基准测试，研究人员提出了多种对抗训练方法和架构改进策略（如动态分治对抗训练和稀疏注意力机制）。此外，这些数据集还启发了新的评估指标和工具（如ReM和GAM），进一步推动了语义分割和目标检测领域的鲁棒性研究。

数据集最近研究