HEST-1k
收藏HEST-1k 数据集概述
数据集介绍
HEST-1k 是一个包含 1,108 对空间转录组学样本与 HE 染色的全切片图像的数据集。该数据集由 Mahmood Lab 在哈佛医学院和布里格姆妇女医院开发。
数据集内容
- HEST-1k: 包含 1,108 对空间转录组学样本与 HE 染色的全切片图像。
- HEST-Library: 一系列辅助工具,用于组装新的空间转录组学样本(来自 ST、Visium、Visium HD 或 Xenium)并处理 HEST-1k 数据。
- HEST-Benchmark: 一个新的基准,用于评估基础模型在从形态预测基因表达方面的性能。
数据集下载
数据集总大小为 743 GB,但可以通过按 ID、器官、物种等查询来下载子集。下载教程可在 1-Downloading-HEST-1k.ipynb 找到,或参考 Hugging Face 上的说明。
HEST-Library 安装
安装步骤如下: bash git clone https://github.com/mahmoodlab/hest.git cd hest conda create -n "hest" python=3.9 conda activate hest pip install -e .
额外依赖(用于 WSI 操作):
bash sudo apt install libvips libvips-dev openslide-tools
额外依赖(GPU 加速):
如果机器上有 GPU,推荐安装 cucim: bash pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
HEST-Library API
HEST-Library 允许用户组装新的样本并与之交互。提供了两个教程:
- 2-Interacting-with-HEST-1k.ipynb: 演示如何加载补丁并详细描述每个 scanpy 对象。
- 3-Assembling-HEST-Data.ipynb: 演示如何将 Visium 样本转换为 HEST 格式。
HEST-Benchmark
HEST-Benchmark 包括 10 个任务,用于从形态预测 50 个高度可变基因的表达,涉及 10 个不同器官和 9 种癌症类型。提供了详细的教程 4-Running-HEST-Benchmark.ipynb 以复现结果。
基准测试结果(06.24.24)
HEST-Benchmark 评估了 10 个公开可用的模型,结果基于随机森林回归模型(70 棵树),性能指标为 Pearson 相关系数。
| ResNet50 | KimiaNet | Ciga | CTransPath | Remedis | Phikon | PLIP | UNI | CONCH | GigaPath | |
|---|---|---|---|---|---|---|---|---|---|---|
| IDC | 0.440 | 0.420 | 0.406 | 0.454 | 0.491 | 0.430 | 0.436 | 0.502 | 0.504 | 0.492 |
| PRAD | 0.318 | 0.328 | 0.332 | 0.346 | 0.335 | 0.377 | 0.362 | 0.357 | 0.373 | 0.372 |
| PAAD | 0.389 | 0.410 | 0.397 | 0.406 | 0.451 | 0.372 | 0.392 | 0.424 | 0.431 | 0.425 |
| SKCM | 0.446 | 0.452 | 0.484 | 0.535 | 0.577 | 0.516 | 0.461 | 0.613 | 0.582 | 0.541 |
| COAD | 0.107 | 0.080 | 0.102 | 0.123 | 0.125 | 0.137 | 0.112 | 0.147 | 0.124 | 0.139 |
| READ | 0.051 | 0.038 | 0.046 | 0.083 | 0.099 | 0.138 | 0.063 | 0.162 | 0.132 | 0.156 |
| CCRCC | 0.136 | 0.136 | 0.127 | 0.171 | 0.200 | 0.178 | 0.124 | 0.186 | 0.149 | 0.182 |
| HCC | 0.034 | 0.028 | 0.045 | 0.060 | 0.059 | 0.041 | 0.038 | 0.051 | 0.040 | 0.055 |
| LUAD | 0.497 | 0.507 | 0.515 | 0.531 | 0.573 | 0.541 | 0.533 | 0.511 | 0.569 | 0.547 |
| LYMPH_IDC | 0.205 | 0.206 | 0.218 | 0.238 | 0.243 | 0.243 | 0.229 | 0.234 | 0.249 | 0.248 |
| Average | 0.262 | 0.261 | 0.267 | 0.295 | 0.315 | 0.297 | 0.275 | 0.319 | 0.315 | 0.316 |

- 1HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis麻省总布莱根医院 · 2024年



