HESCAPE
收藏github2025-08-06 更新2025-08-07 收录
下载链接:
https://github.com/peng-lab/hescape
下载链接
链接失效反馈官方服务:
资源简介:
HESCAPE是一个用于空间转录组学跨模态对比预训练的大规模基准数据集,基于一个涵盖6个不同基因面板和54个捐赠者的跨器官数据集。它提供了标准化的数据集、评估协议和基准测试工具,以促进空间转录组学中多模态学习方法的发展。
HESCAPE is a large-scale benchmark dataset for cross-modal contrastive pre-training in spatial transcriptomics. It is built upon a cross-organ dataset encompassing 6 distinct gene panels and 54 donors, and provides standardized datasets, evaluation protocols and benchmarking tools to advance the development of multimodal learning methods in spatial transcriptomics.
创建时间:
2025-07-28
原始信息汇总
HESCAPE 数据集概述
数据集简介
- 名称: HESCAPE (A Large-Scale Benchmark for Cross-Modal Learning in Spatial Transcriptomics)
- 类型: 多模态数据集(组织学图像与基因表达数据)
- 领域: 空间转录组学
- 主要目标: 为跨模态对比预训练提供基准评估
数据集内容
- 数据规模: 包含54个捐赠者的数据,涵盖6种不同的基因面板
- 数据类型:
- 组织学图像
- 基因表达数据
- 数据来源: 10x Xenium基因面板
主要特点
- 多模态对齐: 提供1:1映射的组织学-转录组学数据
- 预训练框架: 支持4种基因表达编码器和5种病理学基础模型的评估
- 跨模态检索任务: 包括图像到基因(I2G)和基因到图像(G2I)检索
- 下游任务支持: 临床相关突变分类和基因表达预测
技术细节
- 数据格式: Pyarrow格式的流式数据集
- 预训练模型:
- 基因表达编码器: DRVI, Nicheformer, scFoundation, MLP
- 病理学基础模型: Gigapath, UNI, CONCH, H0-mini, CtransPath
- 评估指标: Recall@5(用于跨模态检索任务)
基准测试结果
- 最佳表现模型组合:
- DRVI-gigapath在多数任务中表现最优
- 具体性能参见完整测试结果表
使用方式
- 安装方法:
- pip/uv:
pip install git+https://github.com/peng-lab/hescape.git@main - conda: 克隆仓库后使用
pip install -e .安装
- pip/uv:
- 配置:
- 使用Hydra进行实验配置
- 主要配置文件:
/experiments/configs/default_config.yaml
- 训练:
- 通过
experiments/hescape_pretrain/train.py启动
- 通过
可用资源
- 数据集地址: https://huggingface.co/datasets/marr-peng-lab/paired_ts8_human_breast_panel
- 演示笔记本: image_model_loading.ipynb(展示如何加载预训练模型)
引用信息
bibtex @misc{gindra2025largescalebenchmarkcrossmodallearning, title={A Large-Scale Benchmark of Cross-Modal Learning for Histology and Gene Expression in Spatial Transcriptomics}, author={Rushin H. Gindra and Giovanni Palla and Mathias Nguyen and Sophia J. Wagner and Manuel Tran and Fabian J Theis and Dieter Saur and Lorin Crawford and Tingying Peng}, year={2025}, eprint={2508.01490}, archivePrefix={arXiv}, primaryClass={q-bio.GN}, url={https://arxiv.org/abs/2508.01490}, }
搜集汇总
数据集介绍

构建方式
HESCAPE数据集通过整合来自54名捐赠者的6种不同基因面板的空间转录组学数据,构建了一个跨器官的多模态基准测试平台。研究团队采用严格的筛选标准,确保数据质量与多样性,并通过1-1映射的方式将组织学图像与基因表达数据进行配对。数据集构建过程中特别关注了批次效应的控制,采用标准化的预处理流程,包括图像归一化和基因表达矩阵的标准化处理,为后续的多模态对比学习提供了可靠的基础。
特点
该数据集最显著的特点在于其多模态性质,同时包含高分辨率的组织病理学图像和对应的空间基因表达谱。数据集覆盖了多种器官类型,包括乳腺、结肠和肺等,具有广泛的生物学代表性。特别值得注意的是,HESCAPE提供了完整的评估框架,支持4种基因编码器和5种病理学基础模型的系统比较。数据集还包含了丰富的下游任务评估指标,如跨模态检索任务的Recall@5评分,为研究者提供了全面的性能评估维度。
使用方法
使用HESCAPE数据集时,研究者可通过Hugging Face平台获取预处理的pyarrow格式数据流。数据集支持多种安装方式,推荐使用pip或uv进行环境配置。研究框架基于Hydra实现灵活的配置管理,用户可通过修改YAML配置文件或命令行参数来调整模型架构、训练策略等超参数。数据集提供了完整的训练和推理流程,包括预训练脚本和特征提取示例,支持用户进行跨模态对比学习实验,并在基因突变分类和基因表达预测等下游任务中进行模型评估。
背景与挑战
背景概述
HESCAPE是由Rushin H. Gindra等研究人员于2025年提出的一个大规模跨模态学习基准数据集,专注于空间转录组学领域。该数据集由Helmholtz Munich和Peng Lab等机构联合开发,旨在解决组织学图像与基因表达数据之间的模态对齐问题。作为首个系统评估多模态对比预训练方法的基准,HESCAPE整合了来自54名捐赠者的6种不同基因面板数据,为研究细胞组织结构和疾病机制提供了重要工具。该数据集的建立填补了空间转录组学领域缺乏标准化评估体系的空白,对推动计算病理学和基因组学的交叉研究具有里程碑意义。
当前挑战
HESCAPE面临的核心挑战主要体现在两个方面:在领域问题层面,如何有效实现组织学图像与基因表达数据的模态对齐仍存在显著困难,特别是在处理批次效应干扰时,现有对比预训练方法在基因表达预测任务中反而表现劣于基线模型;在构建过程层面,数据整合面临严峻考验,需要协调来自不同基因面板(如10x Xenium和Visium)的异构数据,同时保持组织切片与转录组数据的空间对应关系。此外,大规模多模态数据的存储与流式处理也对计算基础设施提出了极高要求。
常用场景
经典使用场景
在空间转录组学领域,HESCAPE数据集为跨模态对比预训练提供了标准化的评估框架。该数据集整合了6种不同基因面板和54个供体的组织学图像与基因表达数据,研究人员可通过其系统评估图像编码器与基因表达编码器的组合性能,特别适用于探索组织形态学特征与基因表达模式之间的深层关联。
实际应用
该数据集在临床前研究中展现出重要价值,其预训练模型可直接应用于癌症突变状态分类和基因表达谱预测。例如在乳腺癌和肺癌组织中,通过组织切片图像推断MSI、BRAF等临床相关突变状态,为病理诊断提供辅助决策支持,同时其跨模态检索能力有助于发现新型生物标志物。
衍生相关工作
基于HESCAPE的基准测试催生了多项创新性研究,包括改进的基因编码器架构DRVI和Nicheformer在跨模态检索任务中的性能突破。相关工作进一步拓展了CONCH、Gigapath等病理基础模型在空间转录组学的应用,推动了对比学习在生物医学多模态数据融合领域的方法学进展。
以上内容由遇见数据集搜集并总结生成



