MahmoodLab/hest
收藏HEST-1k 数据集概述
数据集简介
- 名称:HEST-1k
- 包含内容:1,108个空间转录组学数据集,每个数据集与全切片图像(像素大小 > 1.15 µm/px)和元数据对齐。
- 来源:由131个公共和内部队列组成,涵盖:
- 25个器官
- 2个物种(Homo Sapiens 和 Mus Musculus)
- 320个癌症样本,来自25种癌症类型。
- 处理结果:识别出150万个表达/形态学对和6000万个细胞核。
数据下载
下载整个数据集
python from huggingface_hub import snapshot_download
local_dir=hest_data # 数据将下载到此文件夹
注意:完整数据集大约1TB
snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir)
下载数据集子集
python from huggingface_hub import snapshot_download
local_dir=hest_data # 数据将下载到此文件夹
ids_to_query = [TENX96, TENX99] # 查询的ID列表
list_patterns = [f"*{id}[_.]**" for id in ids_to_query] snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir, allow_patterns=list_patterns)
按器官、技术、肿瘤代码等查询数据
python from huggingface_hub import snapshot_download import pandas as pd
local_dir=hest_data # 数据将下载到此文件夹
meta_df = pd.read_csv("hf://datasets/MahmoodLab/hest/HEST_v1_0_0.csv")
按器官、肿瘤代码等过滤数据框
meta_df = meta_df[meta_df[oncotree_code] == IDC] meta_df = meta_df[meta_df[organ] == Breast]
ids_to_query = meta_df[id].values
list_patterns = [f"*{id}[_.]**" for id in ids_to_query] snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir, allow_patterns=list_patterns)
数据加载
python from hest import load_hest
print(load hest...) hest_data = load_hest(hest_data) # 数据位置 print(loaded hest) for d in hest_data: print(d)
数据组织
每个样本包含以下内容:
wsis/:H&E染色的全切片图像,格式为金字塔形通用TIFF(或金字塔形通用BigTIFF,如果>4.1GB)st/:空间转录组学表达,格式为scanpy的.h5ad对象metadata/:元数据spatial_plots/:WSI与ST点位的叠加图thumbnails/:WSI的缩略图tissue_seg/:组织分割掩码:- {id}_mask.jpg:缩放或全分辨率的灰度组织掩码
- {id}_mask.pkl:组织/孔洞轮廓的pickle文件
- {id}_vis.jpg:组织掩码在缩放WSI上的可视化
cellvit_seg/:cellvit细胞核分割pixel_size_vis/:像素大小的可视化patches/:256x256 H&E补丁(0.5µm/px),围绕ST点位提取,格式为优化深度学习的.h5对象。每个补丁与相应的ST轮廓(见st/)匹配,带有条形码。patches_vis/:掩码和补丁在缩放WSI上的可视化。
联系信息
- Guillaume Jaume,哈佛医学院,波士顿,Mahmood实验室(
gjaume@bwh.harvard.edu) - Paul Doucet,哈佛医学院,波士顿,Mahmood实验室(
pdoucet@bwh.harvard.edu)
许可
数据集在Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0 Deed)许可下分发。




