HISTAI

github2025-05-18 更新2025-05-19 收录

下载链接：

https://github.com/HistAI/HISTAI

下载链接

链接失效反馈

官方服务：

资源简介：

HISTAI是一个全面的开源Whole Slide Image (WSI)数据集，旨在推动数字病理学的研究和发展。它提供了一个多样化、多模态且丰富注释的集合，包含来自多个器官系统和病理专业的60,000多张幻灯片。每张幻灯片都包含广泛的临床、病理和技术元数据，支持从诊断建模到多模态分析的各种研究应用。

HISTAI is a comprehensive open-source Whole Slide Image (WSI) dataset designed to advance research and development in digital pathology. It provides a diverse, multimodal and richly annotated collection, comprising over 60,000 slides from multiple organ systems and pathology specialties. Each slide contains extensive clinical, pathological and technical metadata, supporting a wide range of research applications ranging from diagnostic modeling to multimodal analysis.

创建时间：

2025-05-02

原始信息汇总

HISTAI - 全切片图像病理学数据集概述

数据集简介

HISTAI是一个开源的、全面的全切片图像(WSI)数据集，旨在推动数字病理学的研究与发展。该数据集包含来自多个器官系统和病理学专业的60,000多张切片，具有多样性、多模态和丰富的注释。每张切片都包含详细的临床、病理和技术元数据，支持从诊断建模到多模态分析等多种研究应用。

数据集访问

元数据仓库：https://huggingface.co/datasets/histai/HISTAI-metadata
专业子集：
- https://huggingface.co/datasets/histai/HISTAI-hematologic
- https://huggingface.co/datasets/histai/HISTAI-gastrointestinal
- https://huggingface.co/datasets/histai/HISTAI-breast
- https://huggingface.co/datasets/histai/HISTAI-thorax
- https://huggingface.co/datasets/histai/HISTAI-skin-b2
- https://huggingface.co/datasets/histai/HISTAI-skin-b1
- https://huggingface.co/datasets/histai/HISTAI-colorectal-b1
- https://huggingface.co/datasets/histai/HISTAI-colorectal-b2

数据集结构

命名规范：

histai/<dataset_name>/case_<case_id>/slide_<stain>_<slide_number>.tiff

或

histai/<dataset_name>/case_<case_id>/slide_<magnification><stain><slide_number>.tiff
标准放大倍数：20X（如不同会明确标注）
染色：主要为苏木精和伊红(H&E)
扫描仪：主要为Leica Aperio GT450、AT2，部分Hamamatsu和3DHISTECH系统

元数据

每张切片附带详细的JSON格式元数据，包括以下字段：

diagnosis：临床诊断记录
conclusion：病理学结论
diff_diagnosis：鉴别诊断记录
micro_protocol：显微镜检查细节
additional_info：补充临床/病理记录
age：患者年龄（岁）
gender：患者性别
icd10：ICD-10代码
specialization：医学专业或器官系统
case_mapping：切片图像引用
grossing：大体检查细节

数据集统计

数据集	总切片数	总病例数
HISTAI-hematologic	214	214
HISTAI-gastrointestinal	202	120
HISTAI-breast	1,925	1,692
HISTAI-thorax	829	657
HISTAI-skin-b2	43,757	20,621
HISTAI-skin-b1	7,710	1,778
HISTAI-colorectal-b1	5,379	998
HISTAI-colorectal-b2	94	62

总计：

总切片数：60,110
总病例数：26,142
放大倍数：20X（57,647切片）、40X（2,463切片）
染色：H&E（58,282切片）、其他（1,828切片）

下载方法

使用Hugging Face Hub

python from huggingface_hub import snapshot_download snapshot_download(repo_id="histai/<dataset_name>", repo_type="dataset", local_dir="/local_path")

使用Git

bash git lfs install git clone https://huggingface.co/datasets/histai/<dataset_name>

许可证

HISTAI数据集采用CC BY-NC 4.0许可，仅用于研究目的。

联系方式

作者：Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
邮箱：dmitry@hist.ai, alex@hist.ai, kate@hist.ai

搜集汇总

数据集介绍

构建方式

HISTAI数据集作为数字病理学领域的重要资源，其构建过程体现了严谨的学术规范。该数据集通过采集来自不同器官系统和病理专科的超过6万张全切片图像，采用标准化扫描设备（如Leica Aperio GT450、AT2等）进行数字化处理。每张切片均以20X标准放大倍数为主，辅以40X高倍镜图像，并采用苏木精-伊红（H&E）染色作为主要染色方法。数据组织采用层级式结构，按照病例ID和染色类型进行分类存储，同时配套完善的JSON格式元数据，包含临床诊断、病理结论、患者人口学特征等23个标准化字段。

特点

该数据集最显著的特征在于其多模态特性和专业注释体系。作为目前规模最大的开源全切片图像数据集之一，HISTAI涵盖血液系统、胃肠道、乳腺等八大专科领域，包含60,110张切片和26,142个病例。其独特价值体现在三个方面：每张切片均附带完整的临床病理元数据，支持ICD-10疾病编码系统；采用统一的质量控制标准，确保57,647张20X放大图像具有可比性；特别设计的皮肤和结直肠专科子集（HISTAI-skin-b2等）为特定研究需求提供深度支持。数据分布呈现专科差异化特征，如皮肤专科占比达72.8%，为皮肤病学研究提供丰富素材。

使用方法

研究者可通过两种标准化方式获取数据资源。基于Hugging Face Hub的Python接口实现批量下载，支持按专科子集选择性获取，通过repo_id参数指定目标数据集。对于需要本地化管理的用户，推荐使用Git LFS技术进行版本控制，确保大文件传输稳定性。数据应用时需注意遵循CC BY-NC 4.0许可协议，建议结合配套的SPIDER等基准模型开展迁移学习。元数据文件采用嵌套JSON结构，诊断信息存放于diagnosis字段，病例关联数据通过case_mapping实现跨表查询，为多中心研究提供便利。

背景与挑战

背景概述

HISTAI数据集作为数字病理学领域的重要开源资源，由Dmitry Nechaev、Alexey Pchelnikov和Ekaterina Ivanova等研究人员共同构建，旨在推动全切片图像（WSI）的深度分析与应用。该数据集收录了涵盖多个器官系统和病理专科的6万余张切片，每张切片均附有详尽的临床、病理及技术元数据，为诊断建模和多模态分析研究提供了丰富素材。其跨机构协作的特性和标准化的数据格式，显著提升了计算病理学领域的可重复性与研究效率。

当前挑战

数字病理学中全切片图像的高分辨率特性导致单张图像可达GB级别，对存储与计算资源提出严峻挑战。HISTAI需解决多中心数据异质性问题，包括不同扫描设备（如Leica、Hamamatsu）的成像差异和染色协议（如H&E）的批次效应。数据标注依赖病理专家逐帧解读，耗时且成本高昂，而临床元数据的脱敏处理又可能损失关键信息。此外，如何平衡CC BY-NC 4.0许可的研究用途限制与数据共享需求，亦是该领域面临的普遍难题。

常用场景

经典使用场景

在数字病理学领域，HISTAI数据集作为一项重要的资源，广泛应用于病理图像的深度学习模型训练与验证。其包含的超过6万张全切片图像涵盖了多个器官系统和病理类型，为研究人员提供了丰富的样本库。经典使用场景包括病理诊断模型的开发、肿瘤分型研究以及组织学特征分析。数据集的多模态特性支持从单一图像分析到跨模态研究的扩展，为复杂病理问题的探索提供了坚实基础。

实际应用

在实际医疗场景中，HISTAI数据集为开发临床辅助诊断系统提供了重要支持。基于该数据集训练的AI模型已应用于乳腺癌、结直肠癌等常见肿瘤的筛查流程，显著提升了病理诊断的效率与准确性。医疗设备制造商利用这些数据进行算法优化，开发出更精准的数字化病理扫描与分析系统。数据集的多中心特性还使其成为评估不同扫描设备性能的基准工具，推动了数字病理技术的标准化发展。

衍生相关工作

HISTAI数据集催生了一系列重要的衍生研究，包括SPIDER多器官标注数据集和Hibou基础视觉模型等代表性工作。这些衍生项目扩展了原始数据集的应用边界，如SPIDER提供了精细的斑块级标注，支持更精确的局部病理分析；Hibou模型则展示了大规模病理图像预训练的有效性。这些工作共同构建了从数据到模型的完整研究生态，推动了计算病理学从理论研究向临床应用的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集