SpaVis-6M

github2026-02-27 更新2026-03-12 收录

下载链接：

https://github.com/Hanminghao/STAMP

下载链接

链接失效反馈

官方服务：

资源简介：

SpaVis-6M是一个基于Visium的大规模空间转录组学语料库，用于训练空间感知基因编码器：包含575万个空间转录组学条目，覆盖35个器官，1982个切片，262个数据集/出版物。对齐预训练使用了697K个配对的病理图像-基因表达样本。

SpaVis-6M is a large-scale spatial transcriptomic corpus based on Visium, designed for training spatial-aware gene encoders. It comprises 5.75 million spatial transcriptomic entries, covering 35 organs, 1982 tissue slices, and 262 datasets/publications. For alignment pre-training, 697,000 paired pathological image-gene expression samples are utilized.

创建时间：

2026-02-11

原始信息汇总

STAMP数据集概述

数据集基本信息

数据集名称：SpaVis-6M
关联项目/框架：STAMP (Spatial Transcriptomics-Augmented Multimodal Pathology)
核心用途：用于训练空间感知基因编码器，并支持病理学图像与空间转录组数据的多模态对齐预训练。

数据集规模与构成

数据总量：5.75M（575万）个空间转录组学条目。
配对样本：在预训练对齐阶段，使用了697K（69.7万）个配对的病理学图像-基因表达样本。
数据来源：基于Visium技术平台。
覆盖范围：
- 器官：35个。
- 切片：1,982张。
- 数据集/出版物：262个。

数据集在STAMP框架中的角色

阶段一（基因编码器训练）：SpaVis-6M用于训练空间感知的基因编码器，以捕获空间点位（spot）状态及其邻域共定位模式。
阶段二（多模态对齐预训练）：使用数据集中配对的图像-基因样本，通过分层多尺度对比对齐和跨尺度定位机制，对齐病理学图像与空间基因图谱。

数据格式与处理

原始数据格式：空间转录组数据以.h5ad文件格式存储。
训练数据格式：大规模训练时，数据加载器期望使用分片的.h5文件（例如tokens-*.h5），其中包含以下数据集：
- tokenized_gene：(N, context_length) 整数令牌序列。
- images：(N, 3, 224, 224) uint8图像块。
- images_aug：用于多尺度目标的增强图像块。
- batch_slide_id, batch_dataset_id：整数ID。
- pos_label：跨尺度定位目标。

获取与使用

数据集访问：可通过Hugging Face获取，地址为https://huggingface.co/datasets/minghaofdu/SpaVis-6M。
模型权重：关联的STAMP模型权重可通过https://huggingface.co/minghaofdu/STAMP获取。
处理脚本：项目提供了tokenize_and_encode.py脚本，用于将原始.h5ad文件令牌化为固定长度的基因令牌序列，并从全视野数字切片（WSI）图像中裁剪配对的图像块，最后计算两种模态的标准化STAMP嵌入。

搜集汇总

数据集介绍

构建方式

在计算病理学领域，SpaVis-6M数据集的构建体现了对空间转录组学与病理图像融合的前沿探索。该数据集基于Visium技术平台，系统整合了来自262项公开研究、涵盖35种器官的1,982个组织切片，形成了包含575万个空间转录组学条目的庞大语料库。构建过程中，研究团队通过空间采样策略捕获了组织微环境中基因表达的空间共定位模式，并精心配对了69.7万组病理图像与基因表达样本，为多模态对齐预训练提供了结构化基础。这种大规模、多器官的数据整合方式，显著提升了数据在分子层面的覆盖广度与生物学代表性。

特点

SpaVis-6M数据集的核心特点在于其深度融合了空间分辨的分子信息与病理形态学特征。作为迄今规模最大的Visium空间转录组学数据集，它不仅提供了海量的基因表达谱，还通过空间坐标保留了组织微环境的拓扑结构。数据集涵盖多样器官与疾病状态，确保了生物学异质性的充分表征。其独特之处在于为每个转录组学斑点配对了多尺度病理图像块，使得模型能够同时学习分子变异与视觉形态的关联。这种空间感知的基因编码机制，为计算病理学中的多模态学习提供了前所未有的分子级监督信号。

使用方法

使用SpaVis-6M数据集时，研究人员可通过配套的STAMP框架实现端到端的多模态表征学习。具体流程包括两个阶段：首先利用数据集训练空间感知的基因编码器，以捕获斑点状态与邻域共现模式；随后进行病理图像与基因谱的多尺度对比对齐。实践操作中，用户需按照指定目录结构组织原始数据，运行tokenize_and_encode.py脚本将.h5ad格式的空间转录组数据转换为标准化的基因令牌序列，并自动裁剪配对的WSI图像块。训练过程支持分层多尺度对比目标与跨尺度定位机制，最终生成可用于下游任务的联合嵌入表示。

背景与挑战

背景概述

在计算病理学领域，多模态学习近年来取得了显著进展，但现有模型主要依赖视觉与语言模态，语言描述缺乏分子特异性，导致表征能力受限。为突破这一瓶颈，研究团队于2026年提出了STAMP框架，并构建了SpaVis-6M数据集。该数据集由Minghao Han等学者主导开发，旨在整合空间转录组学数据与病理图像，以分子引导的监督信号增强病理表征学习。SpaVis-6M作为迄今规模最大的基于Visium技术的空间转录组学语料库，涵盖35种器官、1982个切片，包含575万条空间转录组学条目，为探索病理图像与基因表达的空间关联提供了关键资源，推动了计算病理学向分子精度与空间上下文理解的方向演进。

当前挑战

SpaVis-6M数据集致力于解决计算病理学中多模态表征学习的核心挑战，即如何融合高维分子数据与视觉信息以捕获疾病的空间异质性。具体挑战包括：在领域问题层面，病理图像与空间转录组数据的对齐需克服模态鸿沟，基因表达的稀疏性与图像区域的语义对应关系难以精确建模；在构建过程中，大规模空间转录组数据的采集与标注成本高昂，不同器官与疾病类型的样本平衡性难以保证，且多尺度图像切片与基因谱的空间配准面临技术复杂性。这些挑战要求模型具备跨模态对齐能力与鲁棒的空间上下文建模机制。

常用场景

经典使用场景

在计算病理学领域，SpaVis-6M数据集作为迄今规模最大的Visium空间转录组学资源，其经典应用场景在于支撑多模态表示学习框架的预训练过程。该数据集通过整合来自35个器官、近600万条空间转录组条目，为病理图像与基因表达谱的跨模态对齐提供了丰富的分子监督信号。研究者利用其大规模空间上下文信息，训练出能够捕捉细胞微环境共定位模式的空间感知基因编码器，进而推动分子引导的病理视觉表征学习，突破了传统仅依赖视觉与语言模态的瓶颈。

衍生相关工作

围绕SpaVis-6M数据集，已衍生出一系列经典研究工作，其中最具代表性的是STAMP（Spatial Transcriptomics-Augmented Multimodal Pathology）框架。该框架利用数据集的规模优势，提出了层次化多尺度对比对齐与跨尺度斑块定位机制，实现了基因表达与病理图像的空间结构融合。后续研究在此基础上拓展了多器官泛化性验证、跨模态检索任务优化，以及轻量化部署方案，进一步巩固了空间转录组增强学习在计算病理学中的方法论地位，并为相关领域如空间组学整合分析提供了技术范式。

数据集最近研究