five

MahmoodLab/hest

收藏
Hugging Face2024-06-25 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/MahmoodLab/hest
下载链接
链接失效反馈
官方服务:
资源简介:
HEST-1k数据集是一个包含1,108个空间转录组学配置文件的集合,每个配置文件都与全切片图像(WSI)和元数据相关联。数据集来自131个公共和内部队列,涵盖25个器官、2个物种(人类和小鼠)以及25种癌症类型的320个癌症样本。数据集处理过程中识别了150万对表达/形态学对和6000万个细胞核。数据集的组织结构包括全切片图像、空间转录组学表达数据、元数据、空间图、缩略图、组织分割掩码、细胞核分割、像素大小可视化以及提取的256x256 H&E图像块。

HEST-1k数据集是一个包含1,108个空间转录组学配置文件的集合,每个配置文件都与全切片图像(WSI)和元数据相关联。数据集来自131个公共和内部队列,涵盖25个器官、2个物种(人类和小鼠)以及25种癌症类型的320个癌症样本。数据集处理过程中识别了150万对表达/形态学对和6000万个细胞核。数据集的组织结构包括全切片图像、空间转录组学表达数据、元数据、空间图、缩略图、组织分割掩码、细胞核分割、像素大小可视化以及提取的256x256 H&E图像块。
提供机构:
MahmoodLab
原始信息汇总

HEST-1k 数据集概述

数据集简介

  • 名称:HEST-1k
  • 包含内容:1,108个空间转录组学数据集,每个数据集与全切片图像(像素大小 > 1.15 µm/px)和元数据对齐。
  • 来源:由131个公共和内部队列组成,涵盖:
    • 25个器官
    • 2个物种(Homo Sapiens 和 Mus Musculus)
    • 320个癌症样本,来自25种癌症类型。
  • 处理结果:识别出150万个表达/形态学对和6000万个细胞核。

数据下载

下载整个数据集

python from huggingface_hub import snapshot_download

local_dir=hest_data # 数据将下载到此文件夹

注意:完整数据集大约1TB

snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir)

下载数据集子集

python from huggingface_hub import snapshot_download

local_dir=hest_data # 数据将下载到此文件夹

ids_to_query = [TENX96, TENX99] # 查询的ID列表

list_patterns = [f"*{id}[_.]**" for id in ids_to_query] snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir, allow_patterns=list_patterns)

按器官、技术、肿瘤代码等查询数据

python from huggingface_hub import snapshot_download import pandas as pd

local_dir=hest_data # 数据将下载到此文件夹

meta_df = pd.read_csv("hf://datasets/MahmoodLab/hest/HEST_v1_0_0.csv")

按器官、肿瘤代码等过滤数据框

meta_df = meta_df[meta_df[oncotree_code] == IDC] meta_df = meta_df[meta_df[organ] == Breast]

ids_to_query = meta_df[id].values

list_patterns = [f"*{id}[_.]**" for id in ids_to_query] snapshot_download(repo_id="MahmoodLab/hest", repo_type=dataset, local_dir=local_dir, allow_patterns=list_patterns)

数据加载

python from hest import load_hest

print(load hest...) hest_data = load_hest(hest_data) # 数据位置 print(loaded hest) for d in hest_data: print(d)

数据组织

每个样本包含以下内容:

  • wsis/:H&E染色的全切片图像,格式为金字塔形通用TIFF(或金字塔形通用BigTIFF,如果>4.1GB)
  • st/:空间转录组学表达,格式为scanpy的.h5ad对象
  • metadata/:元数据
  • spatial_plots/:WSI与ST点位的叠加图
  • thumbnails/:WSI的缩略图
  • tissue_seg/:组织分割掩码:
    • {id}_mask.jpg:缩放或全分辨率的灰度组织掩码
    • {id}_mask.pkl:组织/孔洞轮廓的pickle文件
    • {id}_vis.jpg:组织掩码在缩放WSI上的可视化
  • cellvit_seg/:cellvit细胞核分割
  • pixel_size_vis/:像素大小的可视化
  • patches/:256x256 H&E补丁(0.5µm/px),围绕ST点位提取,格式为优化深度学习的.h5对象。每个补丁与相应的ST轮廓(见st/)匹配,带有条形码。
  • patches_vis/:掩码和补丁在缩放WSI上的可视化。

联系信息

  • Guillaume Jaume,哈佛医学院,波士顿,Mahmood实验室(gjaume@bwh.harvard.edu
  • Paul Doucet,哈佛医学院,波士顿,Mahmood实验室(pdoucet@bwh.harvard.edu

许可

数据集在Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0 Deed)许可下分发。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
HEST-1k数据集是一个大型的空间转录组学和组织学图像数据集,包含1,276个样本,覆盖多种器官和癌症类型,适用于图像分类、特征提取和图像分割等任务。数据集需要用户接受特定条款并通过HuggingFace账户访问。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作