MahmoodLab/hest

Name: MahmoodLab/hest
Creator: MahmoodLab
Published: 2024-06-25 14:00:10
License: 暂无描述

Hugging Face2024-06-25 更新2024-06-25 收录

下载链接：

https://hf-mirror.com/datasets/MahmoodLab/hest

下载链接

链接失效反馈

官方服务：

资源简介：

HEST-1k数据集是一个包含1,108个空间转录组学配置文件的集合，每个配置文件都与全切片图像（WSI）和元数据相关联。数据集来自131个公共和内部队列，涵盖25个器官、2个物种（人类和小鼠）以及25种癌症类型的320个癌症样本。数据集处理过程中识别了150万对表达/形态学对和6000万个细胞核。数据集的组织结构包括全切片图像、空间转录组学表达数据、元数据、空间图、缩略图、组织分割掩码、细胞核分割、像素大小可视化以及提取的256x256 H&E图像块。

提供机构：

MahmoodLab

原始信息汇总

HEST-1k 数据集概述

数据集简介

名称：HEST-1k
包含内容：1,108个空间转录组学数据集，每个数据集与全切片图像（像素大小 > 1.15 µm/px）和元数据对齐。
来源：由131个公共和内部队列组成，涵盖：
- 25个器官
- 2个物种（Homo Sapiens 和 Mus Musculus）
- 320个癌症样本，来自25种癌症类型。
处理结果：识别出150万个表达/形态学对和6000万个细胞核。

数据下载

下载整个数据集

python from huggingface_hub import snapshot_download

local_dir=hest_data # 数据将下载到此文件夹

注意：完整数据集大约1TB

snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir)

下载数据集子集

python from huggingface_hub import snapshot_download

local_dir=hest_data # 数据将下载到此文件夹

ids_to_query = [TENX96, TENX99] # 查询的ID列表

list_patterns = [f"*{id}[_.]**" for id in ids_to_query] snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir, allow_patterns=list_patterns)

按器官、技术、肿瘤代码等查询数据

python from huggingface_hub import snapshot_download import pandas as pd

local_dir=hest_data # 数据将下载到此文件夹

meta_df = pd.read_csv("hf://datasets/MahmoodLab/hest/HEST_v1_0_0.csv")

按器官、肿瘤代码等过滤数据框

meta_df = meta_df[meta_df[oncotree_code] == IDC] meta_df = meta_df[meta_df[organ] == Breast]

ids_to_query = meta_df[id].values

list_patterns = [f"*{id}[_.]**" for id in ids_to_query] snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir, allow_patterns=list_patterns)

数据加载

python from hest import load_hest

print(load hest...) hest_data = load_hest(hest_data) # 数据位置 print(loaded hest) for d in hest_data: print(d)

数据组织

每个样本包含以下内容：

wsis/：H&E染色的全切片图像，格式为金字塔形通用TIFF（或金字塔形通用BigTIFF，如果>4.1GB）
st/：空间转录组学表达，格式为scanpy的.h5ad对象
metadata/：元数据
spatial_plots/：WSI与ST点位的叠加图
thumbnails/：WSI的缩略图
tissue_seg/：组织分割掩码：
- {id}_mask.jpg：缩放或全分辨率的灰度组织掩码
- {id}_mask.pkl：组织/孔洞轮廓的pickle文件
- {id}_vis.jpg：组织掩码在缩放WSI上的可视化
cellvit_seg/：cellvit细胞核分割
pixel_size_vis/：像素大小的可视化
patches/：256x256 H&E补丁（0.5µm/px），围绕ST点位提取，格式为优化深度学习的.h5对象。每个补丁与相应的ST轮廓（见st/）匹配，带有条形码。
patches_vis/：掩码和补丁在缩放WSI上的可视化。