HEST-1k 2024

github2025-01-03 收录

下载链接：

https://github.com/mahmoodlab/hest?tab=readme-ov-file

下载链接

链接失效反馈

官方服务：

资源简介：

HEST-1k是一个从公开和内部队列中策划的配对ST和H&E染色WSI数据集。HEST-1k包含来自153个队列的1,229个样本，涵盖26种器官、两种物种（人类Homo sapiens和小鼠Mus musculus），以及来自25种不同亚型的367个癌症样本。

HEST-1k is a curated paired ST and H&E stained whole-slide imaging (WSI) dataset assembled from public and internal cohorts. It contains 1,229 samples originating from 153 cohorts, spanning 26 organ types, two species (Homo sapiens and Mus musculus), as well as 367 cancer samples across 25 distinct subtypes.

搜集汇总

数据集介绍

构建方式

在空间转录组学与组织病理学交叉融合的前沿领域，HEST-1k数据集通过系统整合多种高通量空间转录组技术平台的数据而构建。该数据集汇集了来自不同器官与癌种的1,276个配对样本，每个样本均包含高分辨率苏木精-伊红染色全切片图像及其对应的空间基因表达谱。数据采集覆盖了Visium、Visium HD以及Xenium等多种技术平台，并经过严格的质控与空间对齐处理，确保了形态学与分子信息在空间位置上的精确匹配，为多模态分析奠定了坚实基础。

特点

HEST-1k数据集以其规模宏大、技术多样与标注精细而著称。它不仅提供了超过一千个配对样本，还涵盖了人类与小鼠多个器官及八种癌症类型，呈现出高度的生物多样性。数据集内包含对齐的转录组数据与细胞核分割结果，支持对形态特征与基因表达进行联合分析。其独特的价值在于为评估病理学基础模型搭建了全新基准，通过九项预测任务系统衡量模型从组织形态中推断基因表达的能力，推动了计算病理学方法的发展。

使用方法

研究人员可通过HEST-Library提供的工具链便捷地访问与利用该数据集。用户可依据样本标识、器官或物种等条件灵活查询并下载数据子集，从而避免处理全部超过2TB的数据量。库中集成了用于加载样本、可视化批次效应及进行数据校正的功能模块，并附有详细教程指导用户进行空间转录组分析或构建符合HEST格式的新样本。此外，HEST-Benchmark框架允许用户评估自有模型在基因表达预测任务上的性能，为方法比较与优化提供了标准化平台。

背景与挑战

背景概述

在空间转录组学与计算病理学交叉领域，整合高分辨率组织形态学图像与空间基因表达图谱已成为解析组织微环境的关键。HEST-1k数据集由哈佛医学院Mahmood实验室于2024年构建，收录了1,276对空间转录组样本与苏木精-伊红染色全切片图像，覆盖多种器官与癌症类型。该数据集旨在为开发基础模型提供基准，推动从组织形态预测基因表达的研究，其成果发表于NeurIPS 2024会议，显著促进了多模态生物医学数据分析方法的发展。

当前挑战

该数据集致力于解决从组织病理学图像预测空间基因表达这一复杂任务的挑战，其核心在于建立形态特征与分子功能之间的可靠关联，并需应对不同技术平台产生的批次效应。在构建过程中，研究人员面临数据对齐、大规模多模态数据整合以及存储与计算资源管理的难题，超过2TB的数据量对高效查询与分布式处理提出了严峻考验。

常用场景

经典使用场景

在空间转录组学与组织病理学交叉领域，HEST-1k数据集为研究者提供了一个前所未有的多模态分析平台。其经典使用场景在于整合苏木精-伊红染色全切片图像与空间转录组数据，使得研究人员能够深入探索组织微环境中基因表达的空间异质性。通过该数据集，学者可以构建计算模型，揭示形态学特征与分子表达之间的潜在关联，为理解疾病发生机制提供新的视角。

实际应用

在实际应用层面，HEST-1k数据集为临床诊断与生物标志物发现提供了强大支持。病理学家可利用该数据集训练人工智能模型，实现基于组织切片图像的基因表达谱推断，辅助癌症分型与预后评估。此外，制药行业可借助其探索肿瘤微环境，识别新的治疗靶点，推动个性化治疗策略的开发，从而在转化医学中发挥实质性作用。

衍生相关工作

围绕HEST-1k数据集，已衍生出一系列重要的研究工作，特别是HEST-Benchmark的建立为病理学基础模型评估设立了新标准。该基准测试系统性地比较了H-Optimus、Virchow、UNI等二十余个先进模型在基因表达预测任务上的性能。这些工作不仅验证了多模态学习的有效性，也激励了社区开发更强大的算法，持续推动空间组学与人工智能的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集