five

HESCAPE

收藏
arXiv2025-08-03 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/marr-peng-lab/paired_ts8_human_breast_panel
下载链接
链接失效反馈
官方服务:
资源简介:
HESCAPE是一个大规模的基准数据集,用于空间转录组学中的跨模态对比预训练。该数据集基于一个精心策划的全器官数据集,涵盖了6个不同的基因面板和54个捐赠者。数据集由超过720,000个图像-基因对组成,其中约620,000个对用于当前基准。数据集旨在通过将组织图像和基因表达测量相结合,揭示细胞组织结构和疾病机制的新见解。该数据集可以用于评估跨模态学习方法的有效性,并促进空间转录组学中稳健、临床适用的多组学模型的发展。

HESCAPE is a large-scale benchmark dataset designed for cross-modal contrastive pre-training in spatial transcriptomics. It is constructed based on a carefully curated whole-organism dataset that encompasses 6 distinct gene panels and 54 donors. The dataset includes more than 720,000 image-gene pairs, of which approximately 620,000 pairs are utilized for the current benchmark. This dataset aims to uncover novel insights into cellular tissue architecture and disease mechanisms by integrating tissue images and gene expression measurements. It can be used to evaluate the effectiveness of cross-modal learning methods and facilitate the development of robust, clinically applicable multi-omic models in spatial transcriptomics.
提供机构:
德国慕尼黑亥姆霍兹健康中心
创建时间:
2025-08-03
搜集汇总
数据集介绍
main_image_url
构建方式
HESCAPE数据集通过整合10x Genomics Xenium平台的空间转录组数据构建而成,涵盖了6种不同的基因面板和54名捐赠者的样本。数据集构建过程中,研究人员采用了亚细胞转录检测技术,并通过模拟10x Visium斑点的空间聚合方法,生成了约72万对图像-基因表达配对。为确保数据的多样性和代表性,样本覆盖了多种器官和疾病状态,包括癌症、健康组织以及特定疾病模型。数据预处理采用SpatialData和Huggingface Datasets库完成,并通过患者分层策略划分训练集、验证集和测试集,以避免数据泄露。
特点
HESCAPE数据集的核心特点在于其多模态性,将组织学图像与空间基因表达数据紧密结合。数据集覆盖了广泛的生物医学场景,包括5K基因面板的跨器官样本、结肠和肺组织的特异性分析,以及免疫肿瘤学和多组织面板的深入研究。其独特的伪斑点模拟技术使得基因表达数据能够与高分辨率病理图像精确对齐。此外,数据集还包含了丰富的元数据,如患者信息和样本处理细节,为后续分析提供了全面的背景支持。值得注意的是,数据集特别强调了批次效应的标注,为研究技术变异对多模态学习的影响提供了重要资源。
使用方法
HESCAPE数据集设计为一个即插即用的基准测试框架,支持两种主要的下游任务应用。在基因突变预测任务中,研究人员可以使用预训练的视觉编码器提取全切片图像特征,再通过Transformer架构进行弱监督学习。对于基因表达预测任务,数据集提供了标准化的评估协议,包括Pearson相关系数和均方误差等指标。用户可通过Hugging Face平台获取数据,并利用配套的代码库进行不同编码器组合的性能比较。特别建议在使用时注意批次效应的处理,可参考数据集中提供的Silhouette Batch评分进行质量控制。
背景与挑战
背景概述
HESCAPE是由Helmholtz Munich和Technical University Munich等机构的研究团队于2025年推出的一个大规模跨模态学习基准数据集,专注于空间转录组学领域。该数据集整合了组织学图像和基因表达数据,旨在解决当前多模态学习方法在空间转录组学中缺乏全面评估基准的问题。HESCAPE包含来自54名捐赠者的6种不同基因面板数据,共计约720k个图像-基因对,为研究组织结构和疾病机制提供了前所未有的多模态视角。该数据集的推出显著推动了空间转录组学领域的发展,特别是在癌症病理学研究中,为发现新的分子机制和生物标志物提供了重要资源。
当前挑战
HESCAPE面临的主要挑战包括:1) 跨模态对齐的困难:虽然对比预训练能提升基因突变分类性能,但却会降低直接基因表达预测的准确性,这揭示了组织形态与基因表达之间的复杂关系;2) 批次效应问题:基因表达数据中存在显著的批次效应,干扰了有效的跨模态对齐;3) 数据异质性:不同组织类型(如肺、乳腺和结肠)表现出显著的性能差异,增加了模型泛化的难度;4) 计算资源限制:大规模多模态基础模型的微调需要大量计算资源,限制了某些实验的开展。这些挑战突显了开发抗批次效应的多模态学习方法的迫切需求。
常用场景
经典使用场景
HESCAPE数据集作为空间转录组学领域的大规模基准,主要用于评估跨模态对比预训练方法的性能。其经典使用场景包括整合组织学图像与基因表达数据,通过对比学习框架实现两种模态的特征对齐。研究者可利用该数据集训练图像编码器(如Gigapath、UNI)与基因编码器(如DRVI、Nicheformer)的组合,评估其在跨模态检索任务中的表现,例如通过Recall@k指标衡量图像到基因(I2G)或基因到图像(G2I)的匹配能力。
解决学术问题
HESCAPE解决了空间转录组学中多模态学习缺乏标准化评估的核心问题。其通过系统比较不同编码器组合在跨器官数据集上的表现,揭示了基因编码器的预训练质量是表征对齐的关键决定因素。该数据集还明确了批次效应对跨模态学习的干扰,为开发抗批次效应的多模态模型提供了实证依据。此外,其下游任务评估(如基因突变分类)验证了对比预训练对特定生物标志物预测的改进潜力,同时暴露了直接基因表达预测任务中模态对齐与表征质量的矛盾。
衍生相关工作
HESCAPE推动了多项空间转录组学多模态研究的进展。基于其基准结果,衍生出改进批次鲁棒性的基因编码器(如DRVI的扩展版本)和融合视觉-基因特征的联合架构(如PathomCLIP)。该数据集还被用于验证跨模态预训练策略(如CLIP与SigLip损失函数的比较),并启发了后续工作如HEST-1k基准的开发,进一步扩展了组织学与基因表达预测任务的评估范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作