CellHIST-Bench
收藏Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/CellHIST-Bench/CellHIST-Bench
下载链接
链接失效反馈官方服务:
资源简介:
CellHIST-Bench 是一个用于基于组织学的空间基因表达推断的基准数据集。该数据集提供了配对的整张切片组织病理学图像、空间转录组学标签、细胞分割结果、以点为中心的补丁元数据以及细胞与补丁的对应信息。数据集支持两种空间转录组学注释级别:点分辨率空间转录组学(每个点与局部组织学补丁和点级基因表达向量相关联)和单细胞分辨率空间转录组学(每个细胞与单细胞基因表达向量相关联,并可链接到图像检测到的细胞)。CellHIST-Bench 旨在支持从组织病理学图像预测空间基因表达的弱监督学习方法的基准测试。数据集按组织或癌症类型组织,包含整张切片图像、细胞分割文件、补丁元数据、补丁-细胞关系文件和基因表达标签。数据集支持的任务包括点级和单细胞级基因表达预测、弱监督空间基因表达推断、细胞感知表示学习以及跨分辨率空间转录组学分析。数据集还提供了详细的数据字段说明、加载示例和推荐评估设置。
CellHIST-Bench is a benchmark dataset for histology-based spatial gene expression inference. The dataset provides paired whole-slide histopathology images, spatial transcriptomics labels, cell segmentation results, spot-centered patch metadata, and cell-to-patch correspondence information. The dataset supports two levels of spatial transcriptomics annotation: spot-resolution spatial transcriptomics (each spot is associated with a local histology patch and a spot-level gene expression vector) and single-cell-resolution spatial transcriptomics (each cell is associated with a single-cell gene expression vector and can be linked to image-detected cells). CellHIST-Bench is designed to support benchmarking of weakly supervised learning methods for predicting spatial gene expression from histopathology images. The dataset is organized by tissue or cancer type and includes whole-slide images, cell segmentation files, patch metadata, patch-cell relationship files, and gene expression labels. The supported tasks include spot-level and single-cell-level gene expression prediction, weakly supervised spatial gene expression inference, cell-aware representation learning, and cross-resolution spatial transcriptomics analysis. The dataset also provides detailed data field descriptions, loading examples, and recommended evaluation settings.
创建时间:
2026-05-07
原始信息汇总
CellHIST-Bench 数据集概述
数据集简介
CellHIST-Bench 是一个用于组织学空间基因表达推断的基准数据集,提供配对的全切片组织病理学图像、空间转录组标签、细胞分割结果、以斑点为中心的斑块元数据以及细胞与斑块的对应关系信息。
数据集支持两种空间转录组注释级别:
- 斑点分辨率:每个斑点关联一个局部组织学斑块和一个斑点级基因表达向量。
- 单细胞分辨率:每个细胞关联一个单细胞基因表达向量,并可链接到图像检测到的细胞。
数据集组织
数据集按组织或癌症类型组织。每个文件夹包含全切片图像、细胞分割文件、斑块元数据、斑块-细胞关系文件和基因表达标签。
典型目录结构示例:
/data/west_bench ├── LUNG │ ├── wsis │ ├── cellvit++_seg │ ├── patches │ ├── patches_cell │ ├── st_spot_label │ └── st_cell_label ├── IDC ├── SKCM └── ...
数据文件详解
全切片图像(wsis/)
- 文件格式:
.tif - 内容:原始组织病理学图像
- 说明:文件通常很大,需使用 OpenSlide 或 tifffile 等工具读取
细胞分割结果(cellvit++_seg/)
由 CellViT++ 生成,每个样本包含:
| 文件 | 内容 |
|---|---|
*_seg.parquet |
DataFrame,包含 geometry、class、cell_id 等列 |
*.h5 |
存储 cell_coords(细胞坐标)、cell_embedding(细胞级图像嵌入)、cell_class_id(细胞类别ID) |
斑块元数据(patches/)
- 文件格式:
.h5 - 包含键:
barcode(空间转录组斑点条形码)、coords(斑块在WSI中的坐标) - 注意:不直接存储斑块图像,需根据坐标从对应WSI中裁剪
斑块-细胞关系文件(patches_cell/)
- 文件格式:
.json - 以斑点条形码为索引的字典,每个条目包含:
cell_index:位于斑块中的细胞索引in_spot:指示细胞是否位于斑点区域内
- 每个斑块对应 224×224 像素的局部图像区域
斑点级基因表达标签(st_spot_label/)
- 文件格式:
.h5ad - 包含
num_spots × num_genes的基因表达矩阵 - 行索引对应斑点条形码
单细胞分辨率样本附加文件
| 文件 | 说明 |
|---|---|
*_st_cell_idx.parquet |
空间转录组细胞索引与图像检测细胞ID的映射,包含 st_cell_index 和 cell_id |
st_cell_label/ |
单细胞级基因表达标签,.h5ad 文件,行索引为 st_cell_index |
数据字段汇总
| 文件类型 | 字段 | 说明 |
|---|---|---|
| 全切片图像 | *.tif |
全切片组织病理学图像 |
| 细胞分割 | geometry |
细胞几何或多边形信息 |
class |
预测的细胞类别 | |
cell_id |
WSI中唯一细胞标识符 | |
cell_coords |
细胞坐标 | |
cell_embedding |
细胞级图像嵌入 | |
cell_class_id |
数值型细胞类别ID | |
| 斑块元数据 | barcode |
空间转录组斑点条形码 |
coords |
WSI中斑块坐标 | |
| 斑块-细胞关系 | cell_index |
位于斑块中的细胞索引 |
in_spot |
细胞是否在斑点区域内 | |
| 斑点级标签 | .X |
斑点级基因表达矩阵 |
.obs |
斑点元数据 | |
.var |
基因元数据 | |
| 单细胞级标签 | .X |
单细胞级基因表达矩阵 |
.obs |
细胞元数据 | |
.var |
基因元数据 |
支持的任务
- 斑点级空间基因表达预测:根据斑点中心组织学斑块预测对应的斑点级基因表达向量
- 单细胞级基因表达预测:根据图像衍生细胞信息和局部组织学上下文预测单个细胞的基因表达谱
- 弱监督空间基因表达推断:评估弱监督模型从组织病理学图像推断分子谱的能力
- 细胞感知表示学习:利用细胞分割、细胞嵌入和斑块-细胞关系学习细胞感知的组织学表示
- 跨分辨率空间转录组分析:在统一数据组织下比较斑点级和单细胞级空间基因表达预测
建议的评估设置
斑点级预测
- 输入:斑点中心组织学斑块
- 输出:斑点级基因表达向量
- 标签文件:
st_spot_label/*.h5ad
单细胞级预测
- 输入:细胞级视觉信息和局部组织学上下文
- 输出:单细胞基因表达向量
- 标签文件:
st_cell_label/*.h5ad - 映射文件:
cellvit++_seg/*_st_cell_idx.parquet
数据集划分
数据集可按组织类型、样本ID或任务设置划分。典型划分包括训练集、验证集和测试集。评估泛化能力时,应确保同一生物样本的切片不跨训练集和测试集共享。
预期用途
- 基于组织学的空间基因表达预测
- 空间转录组学的弱监督学习
- 计算病理学
- 细胞感知的组织学表示学习
- 组织学图像与空间组学数据的整合
- 单细胞和空间转录组分析
仅限研究用途。
限制与注意事项
- WSI文件巨大:需专业工具和充足存储
- 斑块图像未直接存储:需用户从WSI中裁剪
- 细胞分割依赖CellViT++:下游分析可能受分割模型准确性影响
- 分辨率差异:斑点和单细胞分辨率样本标签粒度不同,结果需谨慎解读
- 基因表达稀疏性:数据稀疏且含噪声,预测性能需结合生物学和技术因素解释
许可协议
- 许可:CC BY-NC 4.0(知识共享-非商业性使用 4.0 国际许可协议)
搜集汇总
数据集介绍

构建方式
CellHIST-Bench的构建基于配对的全切片组织病理学图像与空间转录组学标签,整合了CellViT++细胞分割结果、以斑点为中心的图像块元数据及细胞与图像块间的对应关系。数据集按组织或癌症类型组织,每个文件夹内包含全切片图像、细胞分割文件、图像块元数据、图像块-细胞关系文件及基因表达标签。针对斑点分辨率样本,提供了斑点的基因表达矩阵;针对单细胞分辨率样本,额外纳入了单细胞基因表达标签与斑点-细胞映射文件。这种层级化的组织方式使得研究者能够灵活选取不同分辨率的转录组学信息进行模型训练与评估。
特点
该数据集的核心特色在于其双重空间转录组学注释分辨率,既支持斑点级别的基因表达预测,也支持单细胞级别的分子谱推断。数据集提供了丰富的元数据,包括细胞分割结果、图像块坐标及细胞与图像块的包含关系,为细胞感知的组织病理学表征学习奠定了基础。此外,数据集中包含的大规模全切片图像与稀疏的基因表达标签,使其特别适用于弱监督学习方法的基准测试,推动计算病理学领域从形态到分子映射的研究进展。
使用方法
使用者可通过扫描库(Scanpy)轻松加载斑点或单细胞级别的基因表达标签,利用HDF5格式文件获取图像块坐标与细胞分割信息。加载过程中,需根据提供的坐标从全切片图像中裁剪出对应的224×224像素的图像块,并借助JSON文件建立斑点与细胞间的对应关系。数据集支持按组织类型、样本标识或任务设置进行数据划分,推荐在评估泛化能力时确保训练集与测试集不包含来自同一生物样本的切片,以保障评估的严谨性与科学性。
背景与挑战
背景概述
空间转录组学作为连接组织形态与分子表达的关键桥梁,正逐渐成为计算病理学领域的研究热点。CellHIST-Bench数据集于近年由相关研究团队构建,旨在为从组织病理学图像中推断空间基因表达提供标准化基准。该数据集包含配对的全切片病理图像、空间转录组标签、细胞分割结果以及斑块-细胞对应关系,支持点分辨率和单细胞分辨率两种空间转录组注释层级。其核心研究问题在于探索弱监督学习方法能否有效从组织学图像中预测分子表达谱,从而推动计算病理学与空间组学数据的深度融合。该数据集的发布为相关领域提供了一个统一、可复现的评测平台,显著促进了跨分辨率空间基因表达预测方法的系统性比较与优化。
当前挑战
该数据集主要面临以下挑战:其一,空间转录组数据本身存在基因表达稀疏性和噪声问题,从有限的组织学信息中准确预测高维、稀疏的分子表达谱是一项艰巨任务。其二,全切片图像文件体积庞大,需借助OpenSlide等专用工具读取,且补丁图像并未直接存储,用户需自行根据坐标从WSI中裁剪,增加了数据预处理的计算负担。其三,细胞级信息依赖于CellViT++分割模型的结果,该模型的精度与偏差会直接影响下游预测性能。此外,点分辨率与单细胞分辨率样本的标签粒度不同,跨设置比较结果需谨慎解释,这对模型泛化能力的评估提出了更高要求。
常用场景
经典使用场景
CellHIST-Bench在计算病理学与空间转录组学交叉领域扮演着关键基准角色,其经典使用场景涵盖从组织病理全切片图像中推断空间基因表达谱。研究者可基于该数据集开展双分辨率预测任务:在斑点分辨率层面,模型接收以空间转录组学斑点为中心的局部组织学图像块,回归其对应的斑点级基因表达向量;在单细胞分辨率层面,模型融合图像派生的细胞特征与局部组织学上下文,推断单个细胞的基因表达谱。该数据集通过提供完备的细胞分割结果、斑点-细胞对应关系以及层次化标签,支撑研究人员系统评估弱监督学习方法在跨模态分子图谱预测中的表现。
衍生相关工作
CellHIST-Bench的发布推动了若干具有影响力的衍生研究工作。在模型架构方面,研究者开发了基于Transformer的跨模态对比学习框架HistoMolER,用于对齐组织学图像块与空间基因表达谱,在跨数据集迁移时取得突破性性能。在损失函数设计上,涌现出结合图注意力网络的空间邻域感知预测方法SpaCellGNN,显式建模斑点间空间相关性以提升基因表达预测精度。在表示学习领域,受到该数据集启发的工作提出了细胞感知的组织学表征学习范式CellPathOmic,通过引入细胞级预训练任务增强模型对组织微环境结构的理解能力。此外,该数据集还催生了组织病理图像与空间转录组学数据联合分析的统一基准平台,促进了方法论的标准化与可复现性。
数据集最近研究
最新研究方向
在当前计算病理学与空间转录组学交叉融合的前沿领域,CellHIST-Bench作为一项开创性的基准数据集,正引领着从组织病理学全切片图像推断空间基因表达的研究范式。该数据集巧妙地将斑点级与单细胞级空间转录组注释、细胞分割结果及斑块-细胞对应关系整合于统一框架,为弱监督学习在分子病理学中的应用提供了标准化评估平台。近期研究热点聚焦于利用CellViT++等先进细胞分割技术实现细胞感知的表征学习,通过跨分辨率的空间转录组学分析揭示组织微环境内基因表达的异质性。这一数据集的问世不仅推动了图像到基因表达推断任务从技术验证迈向实用化阶段,更在肿瘤微环境解析、疾病亚型分类等热点事件中展现出变革性潜力,为精准病理诊断与生物标志物发现奠定了可重复、可比较的量化基石。
以上内容由遇见数据集搜集并总结生成



