five

HEST-1k|空间转录组学数据集|癌症研究数据集

收藏
arXiv2024-06-24 更新2024-06-26 收录
空间转录组学
癌症研究
下载链接:
https://github.com/mahmoodlab/hest
下载链接
链接失效反馈
资源简介:
HEST-1k是由麻省总布莱根医院和哈佛医学院创建的数据集,包含1,108个空间转录组学(ST)和H&E染色的全切片图像(WSIs)及其元数据。该数据集覆盖25个器官、两种物种(人类和小鼠)以及320个来自25种癌症类型的癌症样本。数据集的创建过程涉及从131个公共和内部队列中提取数据,处理后得到150万表达-形态学对和6000万个检测到的细胞核。HEST-1k的应用领域包括基准测试基础模型、生物标志物发现和多模态表示学习,旨在解决空间转录组学中的计算方法限制和数据标准缺乏问题。
提供机构:
麻省总布莱根医院
创建时间:
2024-06-24
原始信息汇总

HEST-1k 数据集概述

数据集介绍

HEST-1k 是一个包含 1,108 对空间转录组学样本与 HE 染色的全切片图像的数据集。该数据集由 Mahmood Lab 在哈佛医学院和布里格姆妇女医院开发。

数据集内容

  • HEST-1k: 包含 1,108 对空间转录组学样本与 HE 染色的全切片图像。
  • HEST-Library: 一系列辅助工具,用于组装新的空间转录组学样本(来自 ST、Visium、Visium HD 或 Xenium)并处理 HEST-1k 数据。
  • HEST-Benchmark: 一个新的基准,用于评估基础模型在从形态预测基因表达方面的性能。

数据集下载

数据集总大小为 743 GB,但可以通过按 ID、器官、物种等查询来下载子集。下载教程可在 1-Downloading-HEST-1k.ipynb 找到,或参考 Hugging Face 上的说明。

HEST-Library 安装

安装步骤如下: bash git clone https://github.com/mahmoodlab/hest.git cd hest conda create -n "hest" python=3.9 conda activate hest pip install -e .

额外依赖(用于 WSI 操作):

bash sudo apt install libvips libvips-dev openslide-tools

额外依赖(GPU 加速):

如果机器上有 GPU,推荐安装 cucim: bash pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*

HEST-Library API

HEST-Library 允许用户组装新的样本并与之交互。提供了两个教程:

HEST-Benchmark

HEST-Benchmark 包括 10 个任务,用于从形态预测 50 个高度可变基因的表达,涉及 10 个不同器官和 9 种癌症类型。提供了详细的教程 4-Running-HEST-Benchmark.ipynb 以复现结果。

基准测试结果(06.24.24)

HEST-Benchmark 评估了 10 个公开可用的模型,结果基于随机森林回归模型(70 棵树),性能指标为 Pearson 相关系数。

ResNet50 KimiaNet Ciga CTransPath Remedis Phikon PLIP UNI CONCH GigaPath
IDC 0.440 0.420 0.406 0.454 0.491 0.430 0.436 0.502 0.504 0.492
PRAD 0.318 0.328 0.332 0.346 0.335 0.377 0.362 0.357 0.373 0.372
PAAD 0.389 0.410 0.397 0.406 0.451 0.372 0.392 0.424 0.431 0.425
SKCM 0.446 0.452 0.484 0.535 0.577 0.516 0.461 0.613 0.582 0.541
COAD 0.107 0.080 0.102 0.123 0.125 0.137 0.112 0.147 0.124 0.139
READ 0.051 0.038 0.046 0.083 0.099 0.138 0.063 0.162 0.132 0.156
CCRCC 0.136 0.136 0.127 0.171 0.200 0.178 0.124 0.186 0.149 0.182
HCC 0.034 0.028 0.045 0.060 0.059 0.041 0.038 0.051 0.040 0.055
LUAD 0.497 0.507 0.515 0.531 0.573 0.541 0.533 0.511 0.569 0.547
LYMPH_IDC 0.205 0.206 0.218 0.238 0.243 0.243 0.229 0.234 0.249 0.248
Average 0.262 0.261 0.267 0.295 0.315 0.297 0.275 0.319 0.315 0.316
AI搜集汇总
数据集介绍
main_image_url
构建方式
HEST-1k数据集的构建方式是将来自131个公开和内部队列的1,108个空间转录组学样本进行整合,这些队列涵盖了25个器官,两个物种(智人和小鼠),以及来自25种癌症类型的320个癌症样本。数据集通过HEST-Library进行组装,该库允许从公共和内部队列中检索空间转录组学数据,并将其与H&E染色全切片图像和元数据进行关联。此外,数据集的处理还产生了150万个表达形态对和6000万个细胞核。
使用方法
使用HEST-1k数据集的方法包括使用HEST-Library进行数据查询和组装,该库提供了将全切片图像转换为通用TIFF对象、自动对齐点阵和WSI、自动检测图像分辨率、将数据转换为ANNDATA对象、进行组织分割和切片,以及自动下载HEST-1k数据集等功能。此外,HEST-1k数据集还可以用于生物标志物发现和多模态表示学习。在生物标志物发现方面,数据集可以用于研究组织形态与局部基因表达之间的相互作用和相关性。而在多模态表示学习方面,数据集可以用于进行交叉模态对齐和检索、多模态融合等任务。
背景与挑战
背景概述
HEST-1k数据集的创建旨在推动空间转录组学和组织学图像分析领域的研究。该数据集由Guillaume Jaume等人于2024年发表,汇集了来自131个公共和内部队列的1,108个空间转录组学样本,涵盖了25个器官、两种物种(人类和老鼠)以及25种癌症类型的320个癌症样本。这些样本与组织学图像和元数据相关联,为研究提供了丰富的信息。HEST-1k数据集的创建对于推动空间转录组学计算方法的发展具有重要意义,因为现有的方法往往局限于小规模任务和少量患者。此外,该数据集还强调了组织学图像中反映的底层组织形态的重要性,这些信息在空间转录组学研究中往往被忽视。
当前挑战
HEST-1k数据集面临着一些挑战。首先,空间转录组学数据的处理和分析需要克服数据质量和标准化的问题。其次,构建大规模空间转录组学数据集需要解决数据整合、格式统一和数据处理等方面的技术难题。此外,空间转录组学数据与组织学图像的结合需要进行跨模态分析,这要求研究人员开发新的算法和模型。最后,由于空间转录组学技术不断发展,新的数据集和算法需要不断更新和改进,以适应研究的需要。
常用场景
经典使用场景
HEST-1k数据集主要用于空间转录组学和组织学图像分析。该数据集包含了1,108个空间转录组学配置文件,每个配置文件都与一张H&E染色全切片图像和元数据相关联。这些数据来自131个公共和内部队列,涵盖了25个器官,两种物种(智人和小鼠),以及来自25种癌症类型的320个癌症样本。HEST-1k处理使得1.5百万个表达-形态对和6千万个细胞核得以识别。HEST-1k已在三个用例上进行测试:1)用于组织病理学的基准模型(HEST-Benchmark),2)生物标志物识别,3)多模态表示学习。
解决学术问题
HEST-1k数据集解决了空间转录组学研究中计算方法的局限性问题,如成本高、技术发展迅速以及缺乏标准等。该数据集提供了大量标准化的资源,统一了存储格式,使得深度学习模型能够在大规模上进行开发。此外,HEST-1k将组织学图像与空间转录组学数据相结合,提供了丰富的信息,有助于发现形态学生物标志物,如细胞核形状的变化,这些变化可能与基因调控模式相关。在转化医学中,空间转录组学可用于识别生物标志物,并通过临床常用的H&E染色等方法进行形态学验证和表征。此外,空间转录组学和H&E图像的结合还可以用于多模态组织表示学习,以便在单细胞分辨率下联合建模组织的形态分子特征。HEST-1k还促进了“基础模型”的发展,这些模型用于编码组织病理学图像块,从而超越了诊断任务。
实际应用
HEST-1k数据集在实际应用中,如在组织病理学基础模型的基准测试中,以及在生物标志物发现和多模态表示学习等方面都发挥了重要作用。该数据集使得研究人员能够更好地理解肿瘤微环境,并有可能开发出新的治疗方法。此外,HEST-1k数据集还为开发新的、多样化的、具有挑战性的基准测试提供了资源,这些基准测试可用于评估组织病理学图像块编码器模型的预测能力。
数据集最近研究
最新研究方向
HEST-1k数据集的引入,为空间转录组学和组织病理学图像分析领域带来了新的研究方向。该数据集通过结合空间转录组学数据和H&E染色全切片图像,为研究者提供了丰富的形态学信息和基因表达数据,从而促进了形态学标志物的发现和形态分子特征的多模态表示学习。此外,HEST-1k数据集还被用于基准测试组织病理学基础模型,为评估这些模型在预测基因表达方面的能力提供了新的标准。
相关研究论文
  • 1
    HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis麻省总布莱根医院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

UNESCO World Heritage List

该数据集包含了联合国教科文组织(UNESCO)世界遗产名录中的所有文化遗产、自然遗产和混合遗产的详细信息。数据包括遗产的名称、位置、类型、描述、列入名录的年份以及相关的保护状况等。

whc.unesco.org 收录

中国高考录取分数线数据

  高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。  CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。

CnOpenData 收录