THUNDER

Name: THUNDER
Creator: CentraleSupelec, IHU-National PRecISion Medicine Center in Oncology, LIVIA, ILLS, ETS Montreal, ILLS, MILA, Université Paris-Saclay, CNRS, CentraleSupélec
Published: 2025-07-10 23:41:35
License: 暂无描述

arXiv2025-07-10 更新2025-07-12 收录

下载链接：

https://github.com/MICS-Lab/thunder

下载链接

链接失效反馈

官方服务：

资源简介：

THUNDER是一个用于数字病理学基础模型的瓦片级基准，允许对多种数据集上的许多模型进行高效比较，研究它们的特征空间，并评估由其嵌入物启发的预测的鲁棒性和不确定性。该数据集由16个不同类型的癌症、放大倍数、图像和样本大小组成，并提出了各种任务。THUNDER目前支持23种最新的模型，并展示了在考虑的各种评估设置中可以得出许多不同的结论。该数据集的设计旨在为模型提供一个工具，以便有效地比较基础模型，并使其易于以自动化的方式集成新的模型并进行比较。

THUNDER is a tile-level benchmark for foundational models in digital pathology, enabling efficient comparison of numerous models across multiple datasets, investigation of their feature spaces, and evaluation of the robustness and uncertainty of predictions inspired by their embeddings. This benchmark consists of 16 distinct cancer types, magnifications, image sizes and sample sizes, and covers a variety of tasks. Currently, THUNDER supports 23 state-of-the-art models, and demonstrates that many diverse conclusions can be drawn across the various evaluation settings considered. This benchmark is designed to provide a tool for efficiently comparing foundational models, and to facilitate the automated integration and comparison of new models.

提供机构：

CentraleSupelec, IHU-National PRecISion Medicine Center in Oncology, LIVIA, ILLS, ETS Montreal, ILLS, MILA, Université Paris-Saclay, CNRS, CentraleSupélec

创建时间：

2025-07-10

原始信息汇总

THUNDER 数据集概述

数据集简介

名称: THUNDER (Tile-level Histopathology image Understanding benchmark)
类型: 计算病理学基准测试数据集
目的: 评估和比较不同基础模型在计算病理学领域的性能

数据集特点

覆盖范围: 包含16个不同数据集，涵盖多种癌症类型、图像放大倍数和样本规模
模型支持: 当前版本整合23种基础模型，包括：
- 仅视觉模型
- 视觉-语言模型
- 病理学图像训练模型
- 自然图像训练模型

评估维度

下游任务性能
特征空间比较
不确定性和鲁棒性分析

使用方式

API使用

python from thunder import benchmark benchmark("phikon", "break_his", "knn")

CLI使用

console thunder benchmark phikon break_his knn

嵌入提取

python from thunder.models import get_model_from_name model, transform, get_embeddings = get_model_from_name("uni2h", device="cuda")

安装要求

Python版本: 3.10
安装方式: console pip install thunder-bench # PyPi安装 pip install -e . # 源码可编辑模式安装 pip install . # 源码安装
环境变量: 需设置THUNDER_BASE_DATA_FOLDER指定数据存储路径

特殊模型安装

console pip install git+https://github.com/Mahmoodlab/CONCH.git # CONCH模型 pip install git+https://github.com/lilab-stanford/MUSK.git # MUSK模型

许可证

类型: CC BY 4.0

搜集汇总

数据集介绍

构建方式

THUNDER基准通过整合16个公开数字病理数据集构建而成，涵盖多种癌症类型、放大倍数及组织器官。采用标准化的训练/验证/测试划分策略，确保模型评估的公平性与可复现性。所有图像均预处理为图块级别（tile-level），以排除全幻灯片层级特征聚合的干扰，专注于基础模型表征能力的直接比较。数据集包含分类与分割任务，并统一使用余弦相似度等指标进行跨模型性能度量。

特点

该基准涵盖23种前沿基础模型，包括视觉专用与视觉-语言模型，支持病理领域与自然图像预训练模型对比。其核心特色在于三维评估体系：下游任务性能（如k近邻分类、线性探测）、特征空间分析（如嵌入对齐度、图像检索）以及不确定性鲁棒性检验（如对抗攻击鲁棒性、校准误差）。所有评估均基于预计算嵌入特征，显著提升计算效率，支持CPU与GPU混合运算。

使用方法

用户可通过开源代码库加载自定义模型或现有模型，自动执行嵌入提取与多任务评估。评估流程支持并行化处理，允许针对特定数据集或任务子集进行灵活配置。结果输出包含量化指标（如F1分数、ECE误差）与可视化报告（如校准曲线、特征相似度热力图），并支持与其他模型的统计显著性对比。所有评估脚本均模块化设计，可直接扩展新数据集或评估协议。

背景与挑战

背景概述

THUNDER（Tile-level Histopathology image UNDERstanding benchmark）是由CentraleSupelec、IHU-National PRecISion Medicine Center in Oncology等机构的研究团队于2025年提出的数字病理学基础模型评估基准。该基准旨在系统比较不同特征提取模型在组织病理图像块级别任务中的性能，涵盖23种前沿基础模型和16个多样化数据集。其核心研究问题在于解决当前数字病理领域模型评估标准不统一、缺乏开源实现以及忽视特征空间分析和鲁棒性评估的局限性。THUNDER通过整合下游任务性能评估、特征空间对比及不确定性分析，为临床可靠模型的选择提供了科学依据，显著推动了数字病理学自动化工具的标准化进程。

当前挑战

THUNDER面临的领域挑战包括：如何公平比较不同架构（如视觉Transformer与CNN）和训练范式（视觉单模态与视觉-语言模型）的泛化能力；如何设计统一评估协议以消除数据集偏差和任务特异性干扰。构建过程中的技术挑战涉及多维度数据整合（16个数据集覆盖不同器官、放大倍数和癌症类型）、高效计算框架实现（支持CPU/GPU混合运算），以及对抗攻击鲁棒性评估模块的集成。此外，需解决模型嵌入空间对齐度量（如Mutual k-NN）的数学一致性保证，以及病理特异性图像变换（如HED染色归一化）对特征不变性分析的干扰问题。

常用场景

经典使用场景

THUNDER基准测试框架在数字病理学领域被广泛用于评估和比较不同基础模型的性能，特别是在组织切片图像的特征提取能力方面。该框架支持多种下游任务，如k近邻分类、线性探测、少样本学习和语义分割，能够全面衡量模型在多样化数据集上的表现。通过集成23种前沿基础模型和16个公共数据集，THUNDER为研究人员提供了一个标准化平台，用于系统性地验证模型在病理图像理解中的有效性。

衍生相关工作

THUNDER催生了多项针对病理学基础模型的深入研究，例如基于其特征空间对齐技术的改进方法、结合LoRA适配器的高效微调策略，以及针对医学影像的对抗攻击防御机制。相关研究还扩展了基准测试的覆盖范围，如增加免疫组化（IHC）染色数据支持，并推动了开源社区开发兼容THUNDER的新型评估工具，进一步丰富了数字病理学的标准化生态系统。

数据集最近研究