DISPBENCH

Name: DISPBENCH
Creator: 德国曼海姆大学数据与网络科学小组, 德国萨尔州信息学园区马克斯·普朗克计算机科学研究所
Published: 2025-05-08 17:40:17
License: 暂无描述

arXiv2025-05-08 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.05091v1

下载链接

链接失效反馈

官方服务：

资源简介：

DISPBENCH是一个全面评估视差估计方法可靠性的基准测试工具。它通过评估方法在对抗攻击和由2D Common Corruptions引起的分布偏移方面的鲁棒性，系统地评估了多种数据集和不同的破坏场景。DISPBENCH支持多个数据集，包括FlyingThings3D和KITTI2015，并允许使用5种不同的对抗攻击和15种常见的破坏进行评估。DISPBENCH旨在解决当前视差估计方法在实际应用中可靠性不足的问题，通过提供一套评估工具，帮助研究人员构建更鲁棒、更通用的模型。

DISPBENCH is a benchmark tool for comprehensively evaluating the reliability of disparity estimation methods. It systematically assesses multiple datasets and diverse corruption scenarios by measuring the robustness of these methods against adversarial attacks and distribution shifts induced by 2D Common Corruptions. DISPBENCH supports a range of datasets including FlyingThings3D and KITTI2015, and allows evaluation with 5 distinct adversarial attacks and 15 common corruptions. DISPBENCH aims to address the insufficient reliability of current disparity estimation methods in practical applications, and provides a comprehensive evaluation toolkit to help researchers develop more robust and generalizable models.

提供机构：

德国曼海姆大学数据与网络科学小组, 德国萨尔州信息学园区马克斯·普朗克计算机科学研究所

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

DISPBENCH数据集的构建旨在填补视差估计领域缺乏标准化鲁棒性评估工具的空白。该数据集通过系统性地引入合成图像破坏（如对抗攻击和2D常见破坏）来模拟真实世界中的分布偏移，从而评估视差估计方法的可靠性。构建过程中采用了FlyingThings3D和KITTI2015两个主流数据集，覆盖了合成场景和真实驾驶场景的多样性。具体方法包括：1) 集成5种对抗攻击算法（如CosPGD、PGD）和15种2D常见破坏类型；2) 设计模块化架构以支持多数据集和多模型评估；3) 建立标准化评估流程，包括威胁模型配置和性能指标计算。

使用方法

使用DISPBENCH进行评测需遵循标准化流程：首先通过load_model函数加载预训练模型（如STTR或GWCNet），指定模型名称和训练数据集；随后通过evaluate函数执行评估，配置文件中需定义威胁模型类型（None/攻击类型/2DCommonCorruptions）、攻击参数（迭代次数/步长/ε约束）或破坏强度等级。工具支持两种运行模式：检索模式（retrieve_existing=True）直接调用预计算基准结果，实验模式则实时执行评估。典型用例包括：1) 对抗鲁棒性分析，比较不同lp范数约束下攻击效果；2) 泛化能力评估，通过mC-EPE指标衡量模型在各级破坏下的性能衰减；3) 架构对比研究，分析CNN与Transformer在合成破坏与真实破坏下的相关性差异。所有功能通过模块化Python接口实现，完整代码已开源。

背景与挑战

背景概述

DISPBENCH是由德国曼海姆大学数据与网络科学小组及马克斯·普朗克信息学研究所的研究团队于2025年提出的立体视觉视差估计基准测试工具。该数据集针对深度学习模型在安全关键领域（如自动驾驶、医疗手术）应用时面临的分布偏移和对抗攻击脆弱性问题，首次系统性地整合了15种2D常见图像腐蚀类型和5种对抗攻击方法，填补了视差估计领域缺乏标准化鲁棒性评估工具的空白。其创新性在于通过合成腐蚀模拟真实环境干扰，为模型在非独立同分布条件下的可靠性验证提供了可量化标准，对推动计算机视觉安全部署具有里程碑意义。

当前挑战

DISPBENCH面临的核心挑战体现在两个方面：领域问题层面，现有视差估计模型在合成腐蚀下的性能与真实世界表现存在显著差异，尤其对天气干扰（如雪、雾）的泛化能力不足，暴露出深度学习模型在安全关键场景中的潜在风险；构建技术层面，需解决多数据集（FlyingThings3D、KITTI2015）的异构数据整合、对抗攻击在立体匹配任务中的梯度优化复杂性，以及大规模合成腐蚀生成的计算开销问题。此外，基准测试需平衡评估全面性与计算效率，确保新模型架构（如Transformer基方法）的快速兼容性。

常用场景

经典使用场景

DISPBENCH作为首个针对视差估计方法的鲁棒性基准测试工具，其经典使用场景集中在系统评估深度学习模型在合成图像损坏条件下的性能表现。通过模拟对抗攻击（如FGSM、PGD、CosPGD）和15种2D常见损坏（包括高斯噪声、运动模糊、雪霜雾等天气干扰），该数据集为研究者提供了标准化测试环境，尤其适用于自动驾驶导航和医疗内窥镜手术等安全关键领域，其中模型对分布偏移的鲁棒性直接关系到系统可靠性。

解决学术问题

DISPBENCH解决了视差估计领域长期缺乏系统性鲁棒性评估框架的学术痛点。传统基准（如KITTI2015）仅关注i.i.d.性能，而该数据集通过量化模型在合成损坏下的泛化能力（OOD鲁棒性）和对抗攻击下的可靠性，揭示了CNN与Transformer架构在噪声和天气干扰中的性能退化规律。其核心贡献在于建立了合成损坏与真实域偏移之间的相关性验证（如ACDC数据集实验），为模型安全部署提供了理论依据。

实际应用

在实际应用中，DISPBENCH可直接指导安全关键系统的模型选型。例如自动驾驶厂商可通过该基准筛选对雪雾干扰鲁棒的视差估计模型；医疗设备开发者能评估内窥镜图像在运动模糊条件下的深度估计稳定性。数据集支持的KITTI2015和FlyingThings3D双场景测试，分别对应真实道路环境和合成训练数据验证，为工业界提供了从仿真到落地的全流程评估方案。

数据集最近研究