HEST-1k

arXiv2024-06-24 更新2024-06-26 收录

下载链接：

https://github.com/mahmoodlab/hest

下载链接

链接失效反馈

资源简介：

HEST-1k是由麻省总布莱根医院和哈佛医学院创建的数据集，包含1,108个空间转录组学（ST）和H&E染色的全切片图像（WSIs）及其元数据。该数据集覆盖25个器官、两种物种（人类和小鼠）以及320个来自25种癌症类型的癌症样本。数据集的创建过程涉及从131个公共和内部队列中提取数据，处理后得到150万表达-形态学对和6000万个检测到的细胞核。HEST-1k的应用领域包括基准测试基础模型、生物标志物发现和多模态表示学习，旨在解决空间转录组学中的计算方法限制和数据标准缺乏问题。

HEST-1k is a dataset developed by Brigham and Women's Hospital and Harvard Medical School. It contains 1,108 pairs of spatial transcriptomics (ST) data and H&E-stained whole-slide images (WSIs), along with their corresponding metadata. The dataset covers 25 organs, two species (human and mouse), and 320 cancer samples originating from 25 distinct cancer types. The construction of HEST-1k involved extracting data from 131 public and internal cohorts, and after processing, it yields 1.5 million expression-morphology pairs and 60 million detected cell nuclei. The application scenarios of HEST-1k include benchmarking foundational models, biomarker discovery, and multimodal representation learning. This dataset aims to address the limitations of computational methods and the lack of standardized data frameworks in spatial transcriptomics research.

提供机构：

麻省总布莱根医院

创建时间：

2024-06-24

原始信息汇总

HEST-1k 数据集概述

数据集介绍

HEST-1k 是一个包含 1,108 对空间转录组学样本与 HE 染色的全切片图像的数据集。该数据集由 Mahmood Lab 在哈佛医学院和布里格姆妇女医院开发。

数据集内容

HEST-1k: 包含 1,108 对空间转录组学样本与 HE 染色的全切片图像。
HEST-Library: 一系列辅助工具，用于组装新的空间转录组学样本（来自 ST、Visium、Visium HD 或 Xenium）并处理 HEST-1k 数据。
HEST-Benchmark: 一个新的基准，用于评估基础模型在从形态预测基因表达方面的性能。

数据集下载

数据集总大小为 743 GB，但可以通过按 ID、器官、物种等查询来下载子集。下载教程可在 1-Downloading-HEST-1k.ipynb 找到，或参考 Hugging Face 上的说明。

HEST-Library 安装

安装步骤如下： bash git clone https://github.com/mahmoodlab/hest.git cd hest conda create -n "hest" python=3.9 conda activate hest pip install -e .

额外依赖（用于 WSI 操作）：

bash sudo apt install libvips libvips-dev openslide-tools

额外依赖（GPU 加速）：

如果机器上有 GPU，推荐安装 cucim： bash pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*

HEST-Library API

HEST-Library 允许用户组装新的样本并与之交互。提供了两个教程：

2-Interacting-with-HEST-1k.ipynb: 演示如何加载补丁并详细描述每个 scanpy 对象。
3-Assembling-HEST-Data.ipynb: 演示如何将 Visium 样本转换为 HEST 格式。

HEST-Benchmark

HEST-Benchmark 包括 10 个任务，用于从形态预测 50 个高度可变基因的表达，涉及 10 个不同器官和 9 种癌症类型。提供了详细的教程 4-Running-HEST-Benchmark.ipynb 以复现结果。

基准测试结果（06.24.24）

HEST-Benchmark 评估了 10 个公开可用的模型，结果基于随机森林回归模型（70 棵树），性能指标为 Pearson 相关系数。

	ResNet50	KimiaNet	Ciga	CTransPath	Remedis	Phikon	PLIP	UNI	CONCH	GigaPath
IDC	0.440	0.420	0.406	0.454	0.491	0.430	0.436	0.502	0.504	0.492
PRAD	0.318	0.328	0.332	0.346	0.335	0.377	0.362	0.357	0.373	0.372
PAAD	0.389	0.410	0.397	0.406	0.451	0.372	0.392	0.424	0.431	0.425
SKCM	0.446	0.452	0.484	0.535	0.577	0.516	0.461	0.613	0.582	0.541
COAD	0.107	0.080	0.102	0.123	0.125	0.137	0.112	0.147	0.124	0.139
READ	0.051	0.038	0.046	0.083	0.099	0.138	0.063	0.162	0.132	0.156
CCRCC	0.136	0.136	0.127	0.171	0.200	0.178	0.124	0.186	0.149	0.182
HCC	0.034	0.028	0.045	0.060	0.059	0.041	0.038	0.051	0.040	0.055
LUAD	0.497	0.507	0.515	0.531	0.573	0.541	0.533	0.511	0.569	0.547
LYMPH_IDC	0.205	0.206	0.218	0.238	0.243	0.243	0.229	0.234	0.249	0.248
Average	0.262	0.261	0.267	0.295	0.315	0.297	0.275	0.319	0.315	0.316

AI搜集汇总

数据集介绍

构建方式

HEST-1k数据集的构建方式是将来自131个公开和内部队列的1,108个空间转录组学样本进行整合，这些队列涵盖了25个器官，两个物种（智人和小鼠），以及来自25种癌症类型的320个癌症样本。数据集通过HEST-Library进行组装，该库允许从公共和内部队列中检索空间转录组学数据，并将其与H&E染色全切片图像和元数据进行关联。此外，数据集的处理还产生了150万个表达形态对和6000万个细胞核。

使用方法

使用HEST-1k数据集的方法包括使用HEST-Library进行数据查询和组装，该库提供了将全切片图像转换为通用TIFF对象、自动对齐点阵和WSI、自动检测图像分辨率、将数据转换为ANNDATA对象、进行组织分割和切片，以及自动下载HEST-1k数据集等功能。此外，HEST-1k数据集还可以用于生物标志物发现和多模态表示学习。在生物标志物发现方面，数据集可以用于研究组织形态与局部基因表达之间的相互作用和相关性。而在多模态表示学习方面，数据集可以用于进行交叉模态对齐和检索、多模态融合等任务。

背景与挑战

背景概述

HEST-1k数据集的创建旨在推动空间转录组学和组织学图像分析领域的研究。该数据集由Guillaume Jaume等人于2024年发表，汇集了来自131个公共和内部队列的1,108个空间转录组学样本，涵盖了25个器官、两种物种（人类和老鼠）以及25种癌症类型的320个癌症样本。这些样本与组织学图像和元数据相关联，为研究提供了丰富的信息。HEST-1k数据集的创建对于推动空间转录组学计算方法的发展具有重要意义，因为现有的方法往往局限于小规模任务和少量患者。此外，该数据集还强调了组织学图像中反映的底层组织形态的重要性，这些信息在空间转录组学研究中往往被忽视。

当前挑战

HEST-1k数据集面临着一些挑战。首先，空间转录组学数据的处理和分析需要克服数据质量和标准化的问题。其次，构建大规模空间转录组学数据集需要解决数据整合、格式统一和数据处理等方面的技术难题。此外，空间转录组学数据与组织学图像的结合需要进行跨模态分析，这要求研究人员开发新的算法和模型。最后，由于空间转录组学技术不断发展，新的数据集和算法需要不断更新和改进，以适应研究的需要。

常用场景

经典使用场景

HEST-1k数据集主要用于空间转录组学和组织学图像分析。该数据集包含了1,108个空间转录组学配置文件，每个配置文件都与一张H&E染色全切片图像和元数据相关联。这些数据来自131个公共和内部队列，涵盖了25个器官，两种物种（智人和小鼠），以及来自25种癌症类型的320个癌症样本。HEST-1k处理使得1.5百万个表达-形态对和6千万个细胞核得以识别。HEST-1k已在三个用例上进行测试：1）用于组织病理学的基准模型（HEST-Benchmark），2）生物标志物识别，3）多模态表示学习。

解决学术问题

HEST-1k数据集解决了空间转录组学研究中计算方法的局限性问题，如成本高、技术发展迅速以及缺乏标准等。该数据集提供了大量标准化的资源，统一了存储格式，使得深度学习模型能够在大规模上进行开发。此外，HEST-1k将组织学图像与空间转录组学数据相结合，提供了丰富的信息，有助于发现形态学生物标志物，如细胞核形状的变化，这些变化可能与基因调控模式相关。在转化医学中，空间转录组学可用于识别生物标志物，并通过临床常用的H&E染色等方法进行形态学验证和表征。此外，空间转录组学和H&E图像的结合还可以用于多模态组织表示学习，以便在单细胞分辨率下联合建模组织的形态分子特征。HEST-1k还促进了“基础模型”的发展，这些模型用于编码组织病理学图像块，从而超越了诊断任务。

实际应用

HEST-1k数据集在实际应用中，如在组织病理学基础模型的基准测试中，以及在生物标志物发现和多模态表示学习等方面都发挥了重要作用。该数据集使得研究人员能够更好地理解肿瘤微环境，并有可能开发出新的治疗方法。此外，HEST-1k数据集还为开发新的、多样化的、具有挑战性的基准测试提供了资源，这些基准测试可用于评估组织病理学图像块编码器模型的预测能力。

数据集最近研究