five

HISTAI

收藏
github2025-05-18 更新2025-05-19 收录
下载链接:
https://github.com/HistAI/HISTAI
下载链接
链接失效反馈
官方服务:
资源简介:
HISTAI是一个全面的开源Whole Slide Image (WSI)数据集,旨在推动数字病理学的研究和发展。它提供了一个多样化、多模态且丰富注释的集合,包含来自多个器官系统和病理专业的60,000多张幻灯片。每张幻灯片都包含广泛的临床、病理和技术元数据,支持从诊断建模到多模态分析的各种研究应用。

HISTAI is a comprehensive open-source Whole Slide Image (WSI) dataset designed to advance research and development in digital pathology. It provides a diverse, multimodal and richly annotated collection, comprising over 60,000 slides from multiple organ systems and pathology specialties. Each slide contains extensive clinical, pathological and technical metadata, supporting a wide range of research applications ranging from diagnostic modeling to multimodal analysis.
创建时间:
2025-05-02
原始信息汇总

HISTAI - 全切片图像病理学数据集概述

数据集简介

HISTAI是一个开源的、全面的全切片图像(WSI)数据集,旨在推动数字病理学的研究与发展。该数据集包含来自多个器官系统和病理学专业的60,000多张切片,具有多样性、多模态和丰富的注释。每张切片都包含详细的临床、病理和技术元数据,支持从诊断建模到多模态分析等多种研究应用。

数据集访问

  • 元数据仓库:https://huggingface.co/datasets/histai/HISTAI-metadata
  • 专业子集
    • https://huggingface.co/datasets/histai/HISTAI-hematologic
    • https://huggingface.co/datasets/histai/HISTAI-gastrointestinal
    • https://huggingface.co/datasets/histai/HISTAI-breast
    • https://huggingface.co/datasets/histai/HISTAI-thorax
    • https://huggingface.co/datasets/histai/HISTAI-skin-b2
    • https://huggingface.co/datasets/histai/HISTAI-skin-b1
    • https://huggingface.co/datasets/histai/HISTAI-colorectal-b1
    • https://huggingface.co/datasets/histai/HISTAI-colorectal-b2

数据集结构

  • 命名规范

    histai/<dataset_name>/case_<case_id>/slide_<stain>_<slide_number>.tiff

    histai/<dataset_name>/case_<case_id>/slide_<magnification><stain><slide_number>.tiff

  • 标准放大倍数:20X(如不同会明确标注)

  • 染色:主要为苏木精和伊红(H&E)

  • 扫描仪:主要为Leica Aperio GT450、AT2,部分Hamamatsu和3DHISTECH系统

元数据

每张切片附带详细的JSON格式元数据,包括以下字段:

  • diagnosis:临床诊断记录
  • conclusion:病理学结论
  • diff_diagnosis:鉴别诊断记录
  • micro_protocol:显微镜检查细节
  • additional_info:补充临床/病理记录
  • age:患者年龄(岁)
  • gender:患者性别
  • icd10:ICD-10代码
  • specialization:医学专业或器官系统
  • case_mapping:切片图像引用
  • grossing:大体检查细节

数据集统计

数据集 总切片数 总病例数
HISTAI-hematologic 214 214
HISTAI-gastrointestinal 202 120
HISTAI-breast 1,925 1,692
HISTAI-thorax 829 657
HISTAI-skin-b2 43,757 20,621
HISTAI-skin-b1 7,710 1,778
HISTAI-colorectal-b1 5,379 998
HISTAI-colorectal-b2 94 62

总计

  • 总切片数:60,110
  • 总病例数:26,142
  • 放大倍数:20X(57,647切片)、40X(2,463切片)
  • 染色:H&E(58,282切片)、其他(1,828切片)

下载方法

使用Hugging Face Hub

python from huggingface_hub import snapshot_download snapshot_download(repo_id="histai/<dataset_name>", repo_type="dataset", local_dir="/local_path")

使用Git

bash git lfs install git clone https://huggingface.co/datasets/histai/<dataset_name>

许可证

HISTAI数据集采用CC BY-NC 4.0许可,仅用于研究目的。

相关资源

  • SPIDER:具有补丁级注释和预训练基线模型的多器官监督病理学数据集
  • Hibou:针对数字病理学任务优化的基础视觉模型

联系方式

作者:Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
邮箱:dmitry@hist.ai, alex@hist.ai, kate@hist.ai

搜集汇总
数据集介绍
main_image_url
构建方式
HISTAI数据集作为数字病理学领域的重要资源,其构建过程体现了严谨的学术规范。该数据集通过采集来自不同器官系统和病理专科的超过6万张全切片图像,采用标准化扫描设备(如Leica Aperio GT450、AT2等)进行数字化处理。每张切片均以20X标准放大倍数为主,辅以40X高倍镜图像,并采用苏木精-伊红(H&E)染色作为主要染色方法。数据组织采用层级式结构,按照病例ID和染色类型进行分类存储,同时配套完善的JSON格式元数据,包含临床诊断、病理结论、患者人口学特征等23个标准化字段。
特点
该数据集最显著的特征在于其多模态特性和专业注释体系。作为目前规模最大的开源全切片图像数据集之一,HISTAI涵盖血液系统、胃肠道、乳腺等八大专科领域,包含60,110张切片和26,142个病例。其独特价值体现在三个方面:每张切片均附带完整的临床病理元数据,支持ICD-10疾病编码系统;采用统一的质量控制标准,确保57,647张20X放大图像具有可比性;特别设计的皮肤和结直肠专科子集(HISTAI-skin-b2等)为特定研究需求提供深度支持。数据分布呈现专科差异化特征,如皮肤专科占比达72.8%,为皮肤病学研究提供丰富素材。
使用方法
研究者可通过两种标准化方式获取数据资源。基于Hugging Face Hub的Python接口实现批量下载,支持按专科子集选择性获取,通过repo_id参数指定目标数据集。对于需要本地化管理的用户,推荐使用Git LFS技术进行版本控制,确保大文件传输稳定性。数据应用时需注意遵循CC BY-NC 4.0许可协议,建议结合配套的SPIDER等基准模型开展迁移学习。元数据文件采用嵌套JSON结构,诊断信息存放于diagnosis字段,病例关联数据通过case_mapping实现跨表查询,为多中心研究提供便利。
背景与挑战
背景概述
HISTAI数据集作为数字病理学领域的重要开源资源,由Dmitry Nechaev、Alexey Pchelnikov和Ekaterina Ivanova等研究人员共同构建,旨在推动全切片图像(WSI)的深度分析与应用。该数据集收录了涵盖多个器官系统和病理专科的6万余张切片,每张切片均附有详尽的临床、病理及技术元数据,为诊断建模和多模态分析研究提供了丰富素材。其跨机构协作的特性和标准化的数据格式,显著提升了计算病理学领域的可重复性与研究效率。
当前挑战
数字病理学中全切片图像的高分辨率特性导致单张图像可达GB级别,对存储与计算资源提出严峻挑战。HISTAI需解决多中心数据异质性问题,包括不同扫描设备(如Leica、Hamamatsu)的成像差异和染色协议(如H&E)的批次效应。数据标注依赖病理专家逐帧解读,耗时且成本高昂,而临床元数据的脱敏处理又可能损失关键信息。此外,如何平衡CC BY-NC 4.0许可的研究用途限制与数据共享需求,亦是该领域面临的普遍难题。
常用场景
经典使用场景
在数字病理学领域,HISTAI数据集作为一项重要的资源,广泛应用于病理图像的深度学习模型训练与验证。其包含的超过6万张全切片图像涵盖了多个器官系统和病理类型,为研究人员提供了丰富的样本库。经典使用场景包括病理诊断模型的开发、肿瘤分型研究以及组织学特征分析。数据集的多模态特性支持从单一图像分析到跨模态研究的扩展,为复杂病理问题的探索提供了坚实基础。
实际应用
在实际医疗场景中,HISTAI数据集为开发临床辅助诊断系统提供了重要支持。基于该数据集训练的AI模型已应用于乳腺癌、结直肠癌等常见肿瘤的筛查流程,显著提升了病理诊断的效率与准确性。医疗设备制造商利用这些数据进行算法优化,开发出更精准的数字化病理扫描与分析系统。数据集的多中心特性还使其成为评估不同扫描设备性能的基准工具,推动了数字病理技术的标准化发展。
衍生相关工作
HISTAI数据集催生了一系列重要的衍生研究,包括SPIDER多器官标注数据集和Hibou基础视觉模型等代表性工作。这些衍生项目扩展了原始数据集的应用边界,如SPIDER提供了精细的斑块级标注,支持更精确的局部病理分析;Hibou模型则展示了大规模病理图像预训练的有效性。这些工作共同构建了从数据到模型的完整研究生态,推动了计算病理学从理论研究向临床应用的转化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作