STHELAR
收藏github2025-07-17 更新2025-07-29 收录
下载链接:
https://github.com/MICS-Lab/STHELAR
下载链接
链接失效反馈官方服务:
资源简介:
STHELAR是一个多组织数据集,将空间转录组学与组织学(H&E全切片图像)相结合,用于细胞类型注释。该数据集包含31个人类Xenium FFPE切片,涵盖16种组织类型,涉及22名癌症患者和9名非癌症患者。数据集包含超过1100万个细胞,每个细胞被分配到十个经过筛选的细胞类型类别之一,这些类别设计用于适应泛癌环境。通过基于Tangram的单细胞参考图谱对齐、特定切片的聚类和差异表达分析,获得了注释。共配准的H&E图像使得能够提取超过50万个带有分割和分类掩码的图像块。STHELAR为开发直接从组织学图像预测细胞类型注释的模型提供了参考资源。
STHELAR is a multi-tissue dataset that integrates spatial transcriptomics and histology (H&E whole-slide images) for cell type annotation. This dataset comprises 31 human Xenium FFPE slides, covering 16 tissue types and involving 22 cancer patients and 9 non-cancer patients. The dataset contains over 11 million cells, with each cell assigned to one of ten curated cell type categories designed for pan-cancer settings. Annotations were obtained via Tangram-based single-cell reference alignment, slide-specific clustering, and differential expression analysis. Co-registered H&E images enable the extraction of over 500,000 image patches with segmentation and classification masks. STHELAR serves as a reference resource for developing models that directly predict cell type annotations from histology images.
创建时间:
2025-07-07
原始信息汇总
STHELAR数据集概述
数据集简介
- 名称:STHELAR(多组织空间转录组与组织学关联数据集)
- 目的:为细胞类型注释提供空间转录组与H&E组织切片的整合资源
- 技术平台:10x Genomics Xenium技术(FFPE人类样本)
- 规模:包含31个样本,覆盖16种组织类型(22例癌症患者,9例非癌症患者)
- 细胞数量:超过1100万个细胞
- 细胞类型:10种经过筛选的泛癌适用类别
数据组成
核心数据
-
空间转录组数据
- 基因表达谱与空间位置信息
- 包含细胞边界和核边界多边形数据
-
组织学数据
- H&E全切片图像(40x和20x分辨率)
- DAPI核染色图像
- 超过50万个带分割和分类掩模的H&E图像块
-
注释数据
- 基于Tangram的单细胞参考图谱对齐
- 通过Leiden聚类和差异表达分析的slide特异性细化
数据格式
-
SpatialData对象(.zarr格式)包含:
- 多分辨率H&E和DAPI图像
- 转录本空间定位点
- 细胞/核边界多边形
- 多种特征表格(RNA计数、细胞类型注释、嵌入特征等)
-
H&E图像块与掩模:
- 提供PanNuke格式和CellViT格式的分割与分类掩模
- 包含细胞ID与核ID对应关系
数据获取方式
-
完整数据集:
- 存放于BioImage Archive doi:10.6019/S-BIAD2146
-
H&E图像块子集:
- Hugging Face平台提供Parquet格式:
- 40x分辨率:doi:10.57967/hf/6008
- 20x分辨率:doi:10.57967/hf/6009
- Hugging Face平台提供Parquet格式:
质量控制
- 分割准确性评估(Dice系数、Jaccard指数、全景质量)
- 低置信度区域过滤
- 病理学家通过Napari进行标签验证
相关资源
- CellViT模型:专门提供模型预测和微调的独立仓库:CellViT_for_STHELAR
- 详细方法:参见预印本文章doi:10.1101/2025.07.11.664123
搜集汇总
数据集介绍

构建方式
STHELAR数据集的构建采用了多模态数据整合策略,通过10x Genomics Xenium技术平台获取31例人类FFPE样本的空间转录组数据,覆盖16种组织类型和22例癌症/9例非癌症患者。研究团队开发了基于Tangram算法的单细胞参考图谱对齐流程,结合Leiden聚类和差异表达分析,对1100万细胞进行了10种跨癌种细胞类型的精细注释。通过共注册H&E全切片图像技术,提取了50万张带有分割掩膜和分类标签的组织病理图像块,并采用预训练CellViT模型进行质量控制和低置信度区域过滤,确保数据标注的生物学合理性。
特点
该数据集的核心价值在于实现了空间转录组与组织病理图像的跨模态关联,包含三个关键维度:其一,多分辨率H&E图像块(20x/40x)与对应的细胞核/细胞边界多边形;其二,单细胞级基因表达矩阵与scVI嵌入特征;其三,Phikon-v2和Google ViT模型提取的细胞形态特征。特别值得注意的是,所有数据均采用SpatialData对象存储,兼容Scverse生态系统工具链,并提供了与PanNuke数据集格式兼容的标注掩膜,便于算法迁移学习。
使用方法
研究者可通过EMBL-EBI BioImage Archive获取完整的Zarr格式空间数据对象,或从Hugging Face平台下载预处理好的H&E图像块与掩膜(Parquet格式)。典型应用场景包括:使用'table_cells'中的RNA计数矩阵进行细胞亚群分析,利用'features_phikonv2'的形态学特征开发组织学预测模型,或基于'finetuning_CellViT_detailed'中的微调配置复现细胞分割实验。数据集已预分割训练/验证/测试集,并配套提供Dice系数等质量评估指标,支持端到端的计算病理学研究。
背景与挑战
背景概述
STHELAR数据集由Giraud-Sauveur等研究人员于2025年推出,旨在解决肿瘤微环境研究中空间转录组学与组织学数据整合的关键问题。该数据集由16种组织类型的31个人类Xenium FFPE切片构成,涵盖22例癌症患者和9例非癌症患者样本,包含超过1100万个细胞,每个细胞被精确注释为十种预定义的细胞类型之一。通过整合空间转录组学数据和H&E全切片图像,STHELAR为开发直接从组织学图像预测细胞类型注释的模型提供了重要资源,显著推动了癌症研究和精准医疗的发展。
当前挑战
STHELAR数据集面临的挑战主要体现在两个方面:在领域问题层面,空间转录组学数据的高成本和技术复杂性限制了其广泛应用,而细胞类型注释的准确性直接影响到肿瘤微环境研究的可靠性;在构建过程层面,数据集需要解决单细胞参考图谱对齐、跨组织细胞类型标准化、大规模图像分割与标注等关键技术难题,同时确保H&E图像与空间转录组数据的精确配准。此外,数据质量控制涉及复杂的流程,包括低置信度区域过滤和注释完整性验证,这些步骤对数据集的可靠性和实用性至关重要。
常用场景
经典使用场景
STHELAR数据集作为整合空间转录组学与组织学图像的多模态资源,其经典应用场景聚焦于肿瘤微环境细胞类型的自动化识别与空间分布建模。通过将10x Genomics Xenium平台生成的1100万细胞级空间转录组数据与H&E染色全切片图像对齐,研究者能够训练深度学习模型直接从病理图像预测细胞类型注释,显著降低了空间转录组技术的应用门槛。该数据集覆盖16种组织类型、31例福尔马林固定样本的跨癌种分析需求,为探索肿瘤异质性提供了标准化基准。
解决学术问题
STHELAR有效解决了单模态数据分析在肿瘤微环境解析中的局限性问题。其通过Tangram算法对齐单细胞参考图谱、Leiden聚类与差异表达分析的组合策略,实现了跨样本可比的10种细胞类型注释体系。该数据集弥合了基因表达谱与形态学特征之间的认知鸿沟,使研究者能够系统研究癌细胞与免疫基质的空间互作模式,为理解肿瘤发生发展机制提供了多组学验证平台。基于scVI模型构建的潜在空间表征进一步增强了数据在批次效应校正方面的学术价值。
衍生相关工作
该数据集已催生多项创新性研究,包括基于CellViT架构的细粒度细胞分割模型优化工作,其通过迁移学习策略在PanNuke标注体系上实现了12%的Dice系数提升。相关团队开发的scVI整合分析流程被扩展用于多中心研究数据标准化。值得注意的是,谷歌Vision Transformer在STHELAR上的基准测试推动了病理特征提取器的跨模态对比学习研究,后续工作进一步探索了基因表达与图像特征的联合嵌入空间构建方法。
以上内容由遇见数据集搜集并总结生成



