HISTAI
收藏HISTAI - 全切片图像病理学数据集概述
数据集简介
HISTAI是一个开源的、全面的全切片图像(WSI)数据集,旨在推动数字病理学的研究与发展。该数据集包含来自多个器官系统和病理学专业的60,000多张切片,具有多样性、多模态和丰富的注释。每张切片都包含详细的临床、病理和技术元数据,支持从诊断建模到多模态分析等多种研究应用。
数据集访问
- 元数据仓库:https://huggingface.co/datasets/histai/HISTAI-metadata
- 专业子集:
- https://huggingface.co/datasets/histai/HISTAI-hematologic
- https://huggingface.co/datasets/histai/HISTAI-gastrointestinal
- https://huggingface.co/datasets/histai/HISTAI-breast
- https://huggingface.co/datasets/histai/HISTAI-thorax
- https://huggingface.co/datasets/histai/HISTAI-skin-b2
- https://huggingface.co/datasets/histai/HISTAI-skin-b1
- https://huggingface.co/datasets/histai/HISTAI-colorectal-b1
- https://huggingface.co/datasets/histai/HISTAI-colorectal-b2
数据集结构
-
命名规范:
histai/<dataset_name>/case_<case_id>/slide_<stain>_<slide_number>.tiff
或
histai/<dataset_name>/case_<case_id>/slide_<magnification><stain><slide_number>.tiff
-
标准放大倍数:20X(如不同会明确标注)
-
染色:主要为苏木精和伊红(H&E)
-
扫描仪:主要为Leica Aperio GT450、AT2,部分Hamamatsu和3DHISTECH系统
元数据
每张切片附带详细的JSON格式元数据,包括以下字段:
diagnosis:临床诊断记录conclusion:病理学结论diff_diagnosis:鉴别诊断记录micro_protocol:显微镜检查细节additional_info:补充临床/病理记录age:患者年龄(岁)gender:患者性别icd10:ICD-10代码specialization:医学专业或器官系统case_mapping:切片图像引用grossing:大体检查细节
数据集统计
| 数据集 | 总切片数 | 总病例数 |
|---|---|---|
| HISTAI-hematologic | 214 | 214 |
| HISTAI-gastrointestinal | 202 | 120 |
| HISTAI-breast | 1,925 | 1,692 |
| HISTAI-thorax | 829 | 657 |
| HISTAI-skin-b2 | 43,757 | 20,621 |
| HISTAI-skin-b1 | 7,710 | 1,778 |
| HISTAI-colorectal-b1 | 5,379 | 998 |
| HISTAI-colorectal-b2 | 94 | 62 |
总计:
- 总切片数:60,110
- 总病例数:26,142
- 放大倍数:20X(57,647切片)、40X(2,463切片)
- 染色:H&E(58,282切片)、其他(1,828切片)
下载方法
使用Hugging Face Hub
python from huggingface_hub import snapshot_download snapshot_download(repo_id="histai/<dataset_name>", repo_type="dataset", local_dir="/local_path")
使用Git
bash git lfs install git clone https://huggingface.co/datasets/histai/<dataset_name>
许可证
HISTAI数据集采用CC BY-NC 4.0许可,仅用于研究目的。
相关资源
联系方式
作者:Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
邮箱:dmitry@hist.ai, alex@hist.ai, kate@hist.ai




