HEST dataset

Name: HEST dataset
Creator: 伦敦大学学院
Published: 2025-04-10 01:24:41
License: 暂无描述

arXiv2025-04-10 更新2025-04-11 收录

下载链接：

http://arxiv.org/abs/2504.07061v1

下载链接

链接失效反馈

官方服务：

资源简介：

HEST dataset是由伦敦大学学院创建的，包含1,229张全切片图像及其配对的空间转录组学数据。该数据集涵盖了乳腺癌、肾脏癌、肝癌和肺癌等多个组织类型的Visium空间转录组数据。数据集旨在通过数字病理学图像预测基因表达，为研究细胞异质性、生物学过程和疾病机制提供关键见解。

The HEST dataset was developed by University College London, containing 1,229 whole-slide images and their paired spatial transcriptomics data. This dataset includes Visium spatial transcriptomics data across multiple tissue types such as breast cancer, renal cancer, liver cancer, and lung cancer. It aims to predict gene expression from digital pathology images, providing critical insights for research on cellular heterogeneity, biological processes, and disease mechanisms.

提供机构：

伦敦大学学院

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

HEST数据集构建于多组学整合的前沿领域，通过系统收集1,229张全切片病理图像及其配对的空转转录组数据，形成跨模态生物医学研究的基础设施。研究团队采用严格的质控标准，从原始数据中筛选出206,123个有效图像-基因表达对，并依据组织类型划分为乳腺癌、肾癌、肝癌和肺癌四个基准子集。每个数据单元包含高分辨率H&E染色图像瓦片与经过标准处理的50个高变异基因表达谱，通过Visium空间转录组技术实现亚细胞级精度的空间匹配。

特点

该数据集的核心价值体现在三方面独特属性：多模态性实现了病理形态与分子特征的精确空间对应，其图像瓦片分辨率达0.5μm/pixel可揭示细胞级形态特征；技术普适性涵盖四种常见癌种，每个子集样本量均超30,000对数据，确保统计效力；基准性表现为提供经过标准化的高变异基因表达矩阵，消除批次效应并保留生物变异。特别值得注意的是，数据通过5折交叉验证策略进行组织，为算法开发提供可靠的性能评估框架。

使用方法

研究者可通过两种路径开发利用该数据集：基础应用中，直接加载预处理的图像-基因对进行端到端训练，采用256维PCA结合岭回归的标准化流程预测基因表达；进阶方案则推荐结合PEKA框架，将病理基础模型与scFoundation单细胞转录组模型进行跨模态对齐。使用时应遵循论文中的分层抽样策略，保持训练/验证/测试集在病例级别的独立性，并以皮尔逊相关系数作为核心评估指标。数据集支持PyTorch和TensorFlow标准接口，并提供H5DF格式的基因表达矩阵与PNG图像瓦片的映射索引。

背景与挑战

背景概述

HEST数据集由伦敦大学学院的Shi Pan、Jianan Chen和Maria Secrier等研究人员于2025年构建，旨在推动数字病理学与空间转录组学的跨模态研究。该数据集包含1,229张全切片图像及其配对的基因表达谱，覆盖乳腺癌、肾癌、肝癌和肺癌等多种组织类型。作为首个大规模整合病理形态与分子特征的多模态资源，HEST为开发可解释性AI模型提供了重要基础，显著促进了从常规病理切片预测基因表达算法的研发，对精准医学和癌症研究具有里程碑意义。

当前挑战

该领域面临双重挑战：在科学层面，组织形态与基因表达的非线性关联导致传统图像模型难以捕捉分子特征，约70%基因变异缺乏可视化的形态学表征；在技术层面，多模态数据对齐需解决超高维基因数据（约20,000个基因）与亿级像素图像的嵌入空间异构性问题。数据构建过程中，Visium空间转录组技术的微米级定位精度要求病理切片与基因测序区域实现亚细胞级配准，而批次效应和不同癌症组织的异质性进一步增加了数据标准化难度。

常用场景

经典使用场景

HEST数据集在数字病理学与空间转录组学的交叉研究中展现了其经典应用价值。该数据集通过整合全切片图像与匹配的基因表达谱，为研究人员提供了一个多模态分析平台。在PEKA框架的验证过程中，HEST被用于评估病理学基础模型在预测基因表达方面的性能，特别是在乳腺癌、肝癌、肾癌和肺癌等多种组织类型中，其丰富的样本量和多样化的组织来源为模型泛化能力测试提供了理想条件。

实际应用

在临床转化层面，HEST数据集支持从常规病理切片中预测基因表达谱的应用探索。这种能力使得在缺乏昂贵转录组检测的情况下，医疗机构仍能通过数字化病理图像获取分子水平信息，为癌症分型、预后评估和精准治疗策略制定提供辅助决策依据。数据集涵盖的四种癌症类型尤其有助于开发具有广泛适用性的诊断工具。

衍生相关工作

基于HEST数据集的多模态特性，已衍生出若干重要研究方向。PEKA框架通过知识蒸馏和结构对齐损失函数的设计，启发了后续参数高效微调方法在医学多模态学习中的应用。数据集还被用于验证不同基础模型（如CTransPath、UNI和Hoptimous0）的跨模态迁移能力，推动了病理学基础模型在分子特征预测领域的性能基准建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集