HEST-1k|空间转录组学数据集|癌症研究数据集
收藏HEST-1k 数据集概述
数据集介绍
HEST-1k 是一个包含 1,108 对空间转录组学样本与 HE 染色的全切片图像的数据集。该数据集由 Mahmood Lab 在哈佛医学院和布里格姆妇女医院开发。
数据集内容
- HEST-1k: 包含 1,108 对空间转录组学样本与 HE 染色的全切片图像。
- HEST-Library: 一系列辅助工具,用于组装新的空间转录组学样本(来自 ST、Visium、Visium HD 或 Xenium)并处理 HEST-1k 数据。
- HEST-Benchmark: 一个新的基准,用于评估基础模型在从形态预测基因表达方面的性能。
数据集下载
数据集总大小为 743 GB,但可以通过按 ID、器官、物种等查询来下载子集。下载教程可在 1-Downloading-HEST-1k.ipynb 找到,或参考 Hugging Face 上的说明。
HEST-Library 安装
安装步骤如下: bash git clone https://github.com/mahmoodlab/hest.git cd hest conda create -n "hest" python=3.9 conda activate hest pip install -e .
额外依赖(用于 WSI 操作):
bash sudo apt install libvips libvips-dev openslide-tools
额外依赖(GPU 加速):
如果机器上有 GPU,推荐安装 cucim: bash pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12==24.6.* dask-cudf-cu12==24.6.* cucim-cu12==24.6.* raft-dask-cu12==24.6.*
HEST-Library API
HEST-Library 允许用户组装新的样本并与之交互。提供了两个教程:
- 2-Interacting-with-HEST-1k.ipynb: 演示如何加载补丁并详细描述每个 scanpy 对象。
- 3-Assembling-HEST-Data.ipynb: 演示如何将 Visium 样本转换为 HEST 格式。
HEST-Benchmark
HEST-Benchmark 包括 10 个任务,用于从形态预测 50 个高度可变基因的表达,涉及 10 个不同器官和 9 种癌症类型。提供了详细的教程 4-Running-HEST-Benchmark.ipynb 以复现结果。
基准测试结果(06.24.24)
HEST-Benchmark 评估了 10 个公开可用的模型,结果基于随机森林回归模型(70 棵树),性能指标为 Pearson 相关系数。
ResNet50 | KimiaNet | Ciga | CTransPath | Remedis | Phikon | PLIP | UNI | CONCH | GigaPath | |
---|---|---|---|---|---|---|---|---|---|---|
IDC | 0.440 | 0.420 | 0.406 | 0.454 | 0.491 | 0.430 | 0.436 | 0.502 | 0.504 | 0.492 |
PRAD | 0.318 | 0.328 | 0.332 | 0.346 | 0.335 | 0.377 | 0.362 | 0.357 | 0.373 | 0.372 |
PAAD | 0.389 | 0.410 | 0.397 | 0.406 | 0.451 | 0.372 | 0.392 | 0.424 | 0.431 | 0.425 |
SKCM | 0.446 | 0.452 | 0.484 | 0.535 | 0.577 | 0.516 | 0.461 | 0.613 | 0.582 | 0.541 |
COAD | 0.107 | 0.080 | 0.102 | 0.123 | 0.125 | 0.137 | 0.112 | 0.147 | 0.124 | 0.139 |
READ | 0.051 | 0.038 | 0.046 | 0.083 | 0.099 | 0.138 | 0.063 | 0.162 | 0.132 | 0.156 |
CCRCC | 0.136 | 0.136 | 0.127 | 0.171 | 0.200 | 0.178 | 0.124 | 0.186 | 0.149 | 0.182 |
HCC | 0.034 | 0.028 | 0.045 | 0.060 | 0.059 | 0.041 | 0.038 | 0.051 | 0.040 | 0.055 |
LUAD | 0.497 | 0.507 | 0.515 | 0.531 | 0.573 | 0.541 | 0.533 | 0.511 | 0.569 | 0.547 |
LYMPH_IDC | 0.205 | 0.206 | 0.218 | 0.238 | 0.243 | 0.243 | 0.229 | 0.234 | 0.249 | 0.248 |
Average | 0.262 | 0.261 | 0.267 | 0.295 | 0.315 | 0.297 | 0.275 | 0.319 | 0.315 | 0.316 |

- 1HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis麻省总布莱根医院 · 2024年
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
UNESCO World Heritage List
该数据集包含了联合国教科文组织(UNESCO)世界遗产名录中的所有文化遗产、自然遗产和混合遗产的详细信息。数据包括遗产的名称、位置、类型、描述、列入名录的年份以及相关的保护状况等。
whc.unesco.org 收录
中国高考录取分数线数据
高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。 CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。
CnOpenData 收录