U-Bench

Name: U-Bench
Creator: 中国科学技术大学a, 医学影像、机器人与智能计算中心b, 人工智能研究院c
Published: 2025-10-08 22:06:17
License: 暂无描述

arXiv2025-10-08 更新2025-10-10 收录

下载链接：

https://huggingface.co/FengheTan9/U-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

U-Bench是一个大规模的、统计严谨的、面向效率的U-Net及其变体基准，评估了100个U-Net变体在28个数据集和10种成像模式上的表现。数据集涵盖了广泛的成像模式，包括超声、皮肤镜、内窥镜、眼底摄影、组织病理学、核成像、X射线、MRI、CT和OCT。该数据集旨在提供一个全面的、统计严谨的、效率导向的基准，以促进公平、可重复和实际相关的基准测试。

U-Bench is a large-scale, statistically rigorous, efficiency-focused benchmark for U-Net and its variants. It evaluates the performance of 100 U-Net variants across 28 datasets and 10 imaging modalities. This benchmark covers a broad range of imaging modalities including ultrasound, dermoscopy, endoscopy, fundus photography, histopathology, nuclear imaging, X-ray, MRI, CT, and OCT. It aims to provide a comprehensive, statistically rigorous, efficiency-oriented benchmarking framework to facilitate fair, reproducible, and practically relevant benchmark testing.

提供机构：

中国科学技术大学a, 医学影像、机器人与智能计算中心b, 人工智能研究院c

创建时间：

2025-10-08

搜集汇总

数据集介绍

构建方式

U-Bench的构建过程体现了系统性工程思维，其数据集动物园整合了涵盖超声、皮肤镜、内窥镜等10种成像模态的28个公开数据集，通过标准化预处理流程确保数据一致性。模型动物园则精心筛选100个U-Net变体，覆盖CNN、Transformer、Mamba等主流架构，严格采用官方实现与预训练权重以保障可复现性。评估体系创新性地融合统计显著性检验、零样本泛化测试与计算效率指标，并引入兼顾精度与效率的U-Score度量标准，为医学图像分割领域建立了首个大规模可验证的基准框架。

特点

该数据集的核心特征在于其多维评估体系与临床导向设计。通过零样本跨域测试模拟真实医疗场景中的设备差异与分布偏移，显著提升了模型的泛化能力验证价值。U-Score指标的创新性体现在将分割精度与参数量、计算复杂度等部署要素进行联合量化，打破了传统仅关注IoU的局限性。此外，模型顾问智能体通过分析数据集特征与资源约束，为特定临床任务提供架构选择指导，使基准结果具备直接转化为实践方案的能力。

使用方法

研究者可通过访问项目官网获取完整代码库与预训练模型，利用标准化协议在28个数据集上复现基准结果。针对新型架构开发，支持通过模块化接口快速集成至评估流水线，其数据加载器兼容2D/3D多模态输入，训练器提供领域自适应与零样本迁移功能。实践应用中可借助模型顾问智能体输入目标模态、边界清晰度等特征参数，获取针对特定临床场景的架构推荐列表，显著降低模型选择试错成本。

背景与挑战

背景概述

U-Bench由美国加州大学圣地亚哥分校与中国科学技术大学联合团队于2025年10月发布，是首个针对医学图像分割领域U-Net架构的大规模系统化评测基准。该数据集旨在解决过去十年间U-Net变体激增但缺乏统一评估标准的核心问题，通过整合100种U形网络变体、28个跨模态数据集和10种成像模式，构建了覆盖统计鲁棒性、零样本泛化性和计算效率的三维评估体系。其创新性提出的U-Score指标将分割精度与部署效率有机结合，为临床实践提供了更贴近实际需求的模型选择依据，显著推动了医学图像分割领域的标准化进程。

当前挑战

U-Bench面临双重挑战：在领域问题层面，需克服传统评估中普遍存在的统计验证不足、零样本泛化能力忽视以及计算效率考量缺失等系统性缺陷，其构建过程需协调10种医学成像模态的数据异构性，处理从超声、皮肤镜到核磁共振等不同设备的标注差异。技术实现上，团队需确保100种模型在统一框架下的公平比较，解决官方代码适配、预训练权重集成和深度学习策略兼容性等工程难题，同时建立覆盖参数规模、计算复杂度和推理速度的多维度效率评估体系，最终形成可复现的标准化评测流程。

常用场景

经典使用场景

在医学图像分割领域，U-Bench作为首个大规模统计严谨的基准测试框架，其经典应用场景涵盖对100种U-Net变体在28个跨模态数据集上的系统性评估。该数据集通过整合超声、皮肤镜、内窥镜等10种影像模态，构建了覆盖病灶定位、器官分割等任务的标准化测试环境，其多维度评估体系为架构创新提供了可靠的性能验证平台，尤其擅长解析长程依赖建模与局部特征提取的协同机制。

衍生相关工作

基于U-Bench的评估范式，研究者开发了面向特定模态的轻量化架构如LGMSNet与CMUNeXt，其提出的U-Score指标被后续工作扩展为多目标优化损失函数。数据集揭示的Transformer-Mamba混合架构优势催生了VM-UNet等新型网络，而模型顾问智能体的设计思想则衍生出面向CT影像的自动架构搜索系统。这些工作共同推动了医学图像分割从精度导向到效能平衡的范式转变。

数据集最近研究