tcga-wsi-uni2h-features
收藏Hugging Face2026-03-09 更新2026-03-10 收录
下载链接:
https://huggingface.co/datasets/W8Yi/tcga-wsi-uni2h-features
下载链接
链接失效反馈官方服务:
资源简介:
TCGA WSI UNI2H Features数据集为计算病理学研究提供了从TCGA全切片图像(WSIs)中提取的tile级UNI2-h嵌入特征。数据集采用可重复、可审计的流程生成,旨在支持多实例学习(MIL)、检索和表征学习等工作流。数据按项目(如TCGA-HNSC)组织,包含H5格式的特征文件和用于质量检查的覆盖图像。当前公开的数据覆盖了TCGA-ACC、TCGA-BLCA、TCGA-BLCA_IDC和TCGA-HNSC等项目,每个项目包含数百个H5文件和对应的PNG覆盖文件。特征提取基于20x等效单位,采用256x256的非重叠网格,并通过简单的组织过滤流程确保数据质量。每个H5文件包含1536维的UNI2-h嵌入特征、tile坐标等信息。数据集适用于表征学习、弱监督学习、可解释性研究等非临床用途,用户需遵守TCGA的使用条款和数据隐私规定。
创建时间:
2026-03-07
原始信息汇总
TCGA WSI UNI2H Features 数据集概述
数据集简介
本数据集提供了从TCGA全切片图像(WSI)中提取的图块级UNI2-h嵌入特征,采用一个为计算病理学研究设计的、可重复且可审计的流程生成。数据按项目(例如 TCGA-HNSC)组织,目前包含:
features/目录:存放H5特征文件。vis/目录:存放用于质量检查的叠加图像。
公开的数据布局针对按项目增量发布以及在MIL、检索和表征学习工作流中的快速下游集成进行了优化。
当前公开布局
TCGA-HNSC/ features/ TCGA-....h5 vis/ TCGA-....__overlay.png
当前数据覆盖范围
TCGA-ACC/features & vis:227个H5文件和PNG叠加文件。TCGA-BLCA/features & vis:457个H5文件和PNG叠加文件。TCGA-BLCA_IDC/features & vis:838个H5文件和PNG叠加文件。TCGA-HNSC/features & vis:435个H5文件和PNG叠加文件。
特征提取规范
放大倍数与图块几何
- 提取定义在20倍等效单位下,参数为:
tile_size_20x = 256step_size_20x = 256(非重叠的20倍等效网格)
- Level-0图块尺寸根据切片物镜倍数自动调整:
tile_size_level0 = round(tile_size_20x * objective_power / 20)step_size_level0 = round(step_size_20x * objective_power / 20)
组织过滤流程
过滤阶段设计为简单且可检查:
- 从由
mask_max_dim = 2048参数选择的切片层级构建低分辨率组织掩膜。 - 转换为HSV色彩空间并保留满足以下条件的像素:
saturation >= 20value <= 245(移除明亮背景)
- 应用可选去噪/形态学操作:
- 中值滤波器大小
3 - 最大/最小滤波器大小
5
- 中值滤波器大小
- 对每个候选图块,计算组织重叠度,若满足以下条件则保留:
tissue_fraction >= 0.15
UNI2-h编码流程
- 从WSI中读取保留图块的level-0坐标。
- 调整至20倍等效图块尺寸(
256x256)。 - 中心裁剪(或回退至调整大小)至UNI输入尺寸(
224x224)。 - 使用ImageNet均值/标准差进行归一化。
- 使用UNI2-h编码为每个图块生成
1536维嵌入向量。
H5文件结构
每个 .h5 文件包含:
features:UNI2-h图块嵌入,形状为[1, N, 1536]。coords:与特征对齐的图块坐标,形状为[1, N, 2]。coords_patching:图块坐标,形状为[N, 2]。annots:占位符注释,形状为[1, N, 1]。
形状兼容性说明:
coords和coords_patching表示level-0的左上角像素坐标。
质量检查叠加图(vis/)
对于每张切片,vis/<slide_key>__overlay.png 提供了一个在缩略图上保留图块的透明叠加图。
解读方式:
- 覆盖区域显示过滤接受的组织图块并可进行特征编码的区域。
- 未覆盖区域通常是背景、伪影、笔迹标记、模糊或其他被阈值拒绝的低质量区域。
- 这些叠加图是质量检查产物,而非病理学标注。
预期用途
- 仅限研究用途(表征学习、弱监督、可解释性、检索和切片级建模)。
- 不适用于临床护理或诊断决策。
数据治理与隐私
- 用户需负责遵守TCGA使用条款、数据使用协议和机构要求。
- 禁止尝试重新识别患者身份。
局限性
- 当前公开版本仅包含HNSC项目。
- 特征行为依赖于编码器(UNI2-h)。
- 叠加图像是质量检查产物,并非真实标注。
- 组织掩膜阈值为全局默认值,可能对特定染色/扫描仪域欠选或过选图块。
计划扩展
- 额外的TCGA项目将按以下路径增量添加:
TCGA-<PROJECT>/featuresTCGA-<PROJECT>/vis
- 现有项目路径预计将保持稳定。
搜集汇总
数据集介绍

构建方式
在计算病理学领域,TCGA WSI UNI2H Features数据集的构建遵循一套严谨且可复现的流程。该流程从TCGA全切片图像出发,首先在20倍等效放大倍数下,采用256像素的非重叠网格对组织区域进行分块。通过一个透明且可审查的组织过滤管道,基于饱和度与亮度阈值筛选出组织占比超过15%的有效图块。随后,这些图块被统一调整至224x224像素,并经过ImageNet均值与标准差归一化处理,最终输入UNI2-h模型,提取出每个图块对应的1536维特征向量。整个流程确保了特征提取的物理尺度一致性与数据质量的可追溯性。
特点
本数据集的核心特点在于其高度结构化的特征表示与配套的质量控制机制。所有特征均以HDF5格式存储,每个文件不仅包含图块级的1536维UNI2-h嵌入特征,还精确记录了对应图块在原始切片上的坐标信息,为下游的空间分析提供了便利。数据集采用按TCGA项目分目录的组织形式,便于增量发布与项目管理。尤为重要的是,它为每个切片提供了可视化的质量检查叠加图像,清晰展示了被保留的组织区域与被过滤的背景或伪影,这为研究者评估数据质量与过滤阈值效果提供了直观依据。
使用方法
对于希望利用该数据集的研究者,其使用方法直接而高效。通过Python的h5py库即可加载H5特征文件,获取特征矩阵与坐标数据。特征数据的形状设计兼顾了兼容性,既支持[1, N, 1536]的格式,也可通过压缩首维转换为[N, 1536]以适应不同分析流程。配套的坐标数据使得特征能够被精准映射回原始切片的空间位置。该数据集主要服务于计算病理学领域的非临床研究,例如多实例学习、表征学习、图像检索以及切片级建模等任务,为这些高级分析方法提供了经过预处理的、高质量的深度特征起点。
背景与挑战
背景概述
在计算病理学领域,全切片图像(WSI)的高维特征提取是推动精准医疗与人工智能融合的关键技术。TCGA WSI UNI2H Features数据集由研究团队于2026年发布,旨在为TCGA(癌症基因组图谱)中的WSI提供基于UNI2-h模型的标准化特征嵌入。该数据集聚焦于解决病理图像中大规模、可复现的特征表示问题,通过系统化的处理流程,将原始WSI转化为适用于多实例学习、检索和表示学习任务的瓦片级特征向量。其设计不仅优化了数据集成效率,还为癌症亚型分析、预后预测等核心研究提供了高质量的计算基础,显著提升了病理图像分析的自动化水平与研究可扩展性。
当前挑战
该数据集致力于应对计算病理学中全切片图像的高效表示与分析的挑战,其核心在于从海量、高分辨率的WSI中提取具有判别力的特征,以支持弱监督学习和跨模态关联研究。构建过程中的挑战包括:处理WSI的多尺度性与异质性,需通过组织过滤管道精确区分组织区域与背景;确保特征提取流程的可复现性与审计性,涉及放大率标准化与坐标对齐;在数据治理方面,需严格遵守TCGA的使用条款与隐私规范,避免患者身份再识别;此外,当前公开版本仅覆盖部分癌症项目,特征行为受编码器依赖性影响,且组织掩码阈值可能因染色或扫描仪差异而产生选择偏差。
常用场景
经典使用场景
在计算病理学领域,tcga-wsi-uni2h-features数据集为研究者提供了标准化的全切片图像特征表示,其经典使用场景聚焦于多实例学习框架下的肿瘤亚型分类与预后预测。通过预提取的UNI2-h嵌入特征,研究人员能够高效构建基于弱监督的深度学习模型,无需直接处理高分辨率的原始图像数据,从而显著降低计算资源消耗并加速实验迭代。该数据集的组织结构专为项目级分析设计,支持跨不同癌症类型的特征比较与整合,为大规模病理图像分析提供了可复现的基础设施。
实际应用
在实际应用层面,tcga-wsi-uni2h-features数据集为临床前研究提供了重要的数据支撑。其衍生特征可用于构建肿瘤微环境分析工具,辅助研究者识别与治疗响应相关的形态学模式。在药物研发领域,该数据集能够用于探索生物标志物与组织病理特征之间的关联,加速靶向治疗策略的开发。同时,数据集提供的质量控制可视化层为病理学家提供了直观的特征提取区域验证手段,增强了算法输出的可解释性。
衍生相关工作
基于该数据集的特征表示,已衍生出多项经典研究工作。例如,在跨模态检索领域,研究者利用UNI2-h嵌入实现了病理图像与基因组数据的关联分析,揭示了形态学特征与分子亚型之间的深层联系。在可解释人工智能方向,该数据集支撑了注意力机制在多实例学习模型中的应用研究,帮助定位对诊断决策关键的组织区域。此外,数据集的标准格式促进了迁移学习框架的开发,使得在有限标注数据下训练高性能分类模型成为可能。
以上内容由遇见数据集搜集并总结生成



