XBENCH

Name: XBENCH
Creator: 瑞士伯尔尼大学 ARTORG 生物医学工程研究中心
Published: 2025-10-22 21:52:19
License: 暂无描述

arXiv2025-10-22 更新2025-10-24 收录

下载链接：

https://arxiv.org/abs/2510.19599v1

下载链接

链接失效反馈

官方服务：

资源简介：

XBENCH是一个用于评估胸部X射线中视觉语言模型跨模态可解释性的综合性基准。它整合了数据集、模型和指标模块，形成一个统一的评估框架，支持七个具有代表性的CLIP风格视觉语言模型，涵盖从自然图像到胸部X射线特定数据的预训练。XBENCH评估了36种发现和12,601个案例，揭示了系统性的可解释性模式：特定领域的预训练提高了对大型、定义明确的病变的定位，但模型在小型病变、模糊/重叠区域和弥散或尺寸变化的病变方面仍然表现不佳。

提供机构：

瑞士伯尔尼大学 ARTORG 生物医学工程研究中心

创建时间：

2025-10-22

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建可靠的可解释性评估基准至关重要。XBENCH通过整合七个公开胸部X光数据集构建而成，涵盖RSNA肺炎检测、COVID-19农村影像、CheXDet-10等权威数据源，总计包含36种病理发现和12,601个临床病例。该基准采用统一的数据包装器架构，标准化了图像标注、提示模板和数据增强流程，确保多源数据在评估框架中的兼容性与一致性。

使用方法

在实际应用层面，研究者可通过修改配置文件灵活接入自定义模型组件。基准支持固定阈值与最优阈值搜索两种评估模式，分别对应临床部署的便利性和模型潜力的充分挖掘。评估流程标准化包含图像编码器、文本编码器和融合模块的推理逻辑，支持从自然图像预训练到胸部X光专项训练的七种CLIP风格视觉语言模型。这种设计使得基准既能反映模型在当前医学实践中的可用性，又能指引其可解释性能力的持续优化方向。

背景与挑战

背景概述

在医学影像分析领域，视觉-语言模型因其在零样本识别任务中的卓越表现而备受关注，然而其跨模态可解释性——即文本概念与视觉证据的对齐能力——在临床实践中尚未得到充分验证。为此，伯尔尼大学ARTORG生物医学工程研究中心联合多家机构于2025年推出了XBENCH基准数据集，聚焦胸片影像中视觉-语言解释能力的系统评估。该数据集整合了来自七个公开数据源的36种病理征象与12,601例病例，通过构建统一评估框架，首次实现了对CLIP架构视觉-语言模型定位性能的量化分析，为提升医学人工智能的可信度与临床适用性奠定了重要基础。

当前挑战

该数据集致力于解决医学影像中视觉-语言模型定位可靠性的核心挑战：模型对于小型病灶（如微小结节）或弥散性病变的定位精度显著不足，且其依赖全局上下文先验而忽视局部细节的问题凸显。在构建过程中，研究者面临多源数据标注标准差异、病理尺度变异导致的定位困难，以及模型注意力图与放射科医师标注区域的对齐复杂度等挑战。此外，阈值敏感性分析揭示模型校准存在显著差距，需通过后处理优化才能满足临床部署的精确度要求。

常用场景

经典使用场景

在医学影像分析领域，XBENCH数据集作为首个系统评估胸片视觉语言模型跨模态可解释性的基准，主要应用于评估七种CLIP风格视觉语言模型的定位能力。该数据集通过交叉注意力和相似性定位图生成视觉解释，定量分析其与放射科医生标注区域的对齐程度，为模型在临床环境中的可靠性验证提供标准化测试平台。

解决学术问题

该数据集有效解决了医学视觉语言模型在细粒度病理定位方面的评估缺失问题。通过系统量化模型对36种胸部病变的定位精度，揭示了当前模型在大尺寸明确病变中表现良好，但在小尺寸或弥散性病灶中定位能力显著下降的核心局限。这一发现为提升医学AI模型的可解释性提供了关键实证依据，推动了临床可信赖人工智能的发展。

实际应用

在临床实践中，XBENCH为放射科医生提供了模型决策可信度的评估工具。通过对比模型热图与专家标注区域，医疗机构能够筛选出定位准确的AI辅助诊断系统，特别是在肺炎、气胸等急重症的早期检测中，可靠的视觉解释能显著提升临床采纳度，为医疗质量控制建立标准化评估流程。

数据集最近研究