five

HISTAI

收藏
arXiv2025-05-18 更新2025-05-21 收录
下载链接:
https://github.com/HistAI/HISTAI
下载链接
链接失效反馈
官方服务:
资源简介:
HISTAI数据集是一个开源、大规模的整张幻灯片图像数据集,由HistAI机构创建,旨在为计算病理学研究提供丰富的数据资源。数据集包含超过60,000张来自不同组织类型的幻灯片,每张幻灯片都伴随着详尽的临床元数据,包括诊断信息、患者人口统计学数据、详细的病理学注释和标准化的诊断编码。HISTAI数据集旨在填补现有资源中的空白,促进创新、可重复性和临床相关的计算病理学解决方案的发展。数据集可用于开发诊断模型、研究组织类型和临床背景的泛化、探索多模态病理学模型以及研究数字病理学中的域适应和迁移学习。

The HISTAI dataset is an open-source, large-scale whole-slide imaging dataset created by the HistAI institution, aiming to provide rich data resources for computational pathology research. The dataset contains over 60,000 slides sourced from diverse tissue types, each paired with comprehensive clinical metadata including diagnostic information, patient demographic data, detailed pathological annotations, and standardized diagnostic coding. The HISTAI dataset is designed to fill the gaps in existing resources and advance the development of innovative, reproducible, and clinically relevant computational pathology solutions. It can be used to develop diagnostic models, investigate the generalization of tissue types and clinical contexts, explore multimodal pathological models, and study domain adaptation and transfer learning in digital pathology.
提供机构:
HistAI
创建时间:
2025-05-18
搜集汇总
数据集介绍
main_image_url
构建方式
在数字病理学领域,高质量数据集的构建对推动人工智能模型的发展至关重要。HISTAI数据集通过整合来自多种组织类型的超过60,000张全切片图像(WSI),并配以详尽的临床元数据,构建了一个全面且多样化的资源库。该数据集采用标准化命名和存储结构,确保数据的可追溯性和易用性。图像主要通过Leica Aperio GT450和AT2扫描仪数字化,涵盖20X和40X两种放大倍数,以及H&E等多种染色协议。每个病例的元数据包括诊断信息、患者人口统计学数据、病理结论和ICD-10编码等,为研究者提供了丰富的上下文信息。
使用方法
HISTAI数据集的使用方法灵活多样,适合各类计算病理学研究。研究者可通过Hugging Face平台按组织类型访问特定子集,如HISTAI-hematologic或HISTAI-breast。数据集的结构化命名和元数据设计使得图像与临床信息的关联极为便捷。典型应用包括训练和评估诊断模型、探索跨组织泛化能力,以及开发结合临床元数据的多模态算法。数据集的开放性和丰富注释为研究者提供了坚实的基础,助力其在数字病理学领域实现突破性进展。
背景与挑战
背景概述
HISTAI数据集由HistAI团队于2025年推出,作为数字病理学领域的重要开源资源,旨在解决现有全切片图像(WSI)数据集在规模、多样性和临床元数据方面的不足。该数据集包含超过60,000张来自不同组织类型的WSI,每例病例均附有详尽的临床元数据,如诊断信息、患者人口统计学资料、病理学注释及标准化诊断编码。HISTAI的发布填补了现有资源的空白,为计算病理学的研究提供了丰富的数据支持,推动了人工智能模型在临床相关应用中的发展和优化。
当前挑战
HISTAI数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,数字病理学中的WSI数据通常面临组织类型多样性不足、染色方法单一以及临床注释不完整等问题,限制了AI模型的鲁棒性和泛化能力。构建过程中,数据集的规模化和多模态整合带来了技术难题,如大规模WSI的数字化存储、临床元数据的标准化处理以及多中心数据的质量控制。此外,确保数据隐私和伦理合规性也是构建过程中不可忽视的挑战。
常用场景
经典使用场景
在数字病理学领域,HISTAI数据集凭借其大规模、多样化的全切片图像(WSI)和丰富的临床元数据,成为开发与验证人工智能模型的黄金标准。该数据集广泛应用于肿瘤分类、组织分割和预后预测等任务,尤其在跨机构泛化性研究中表现突出。其多中心采集的样本涵盖了血液、乳腺、胃肠道等关键组织类型,为算法在真实临床环境中的鲁棒性评估提供了理想平台。
解决学术问题
HISTAI有效解决了数字病理学中数据碎片化与标注稀缺的核心挑战。通过整合60,000余张标注完善的WSI,该数据集支持研究者探索组织形态学特征与分子标记物的关联性,推动可解释AI模型的发展。其标准化的ICD-10诊断编码和详细病理结论,为建立疾病亚型分类系统提供了数据基础,显著提升了模型在罕见癌症类型中的识别准确率。
实际应用
该数据集在临床决策支持系统中展现出重要价值。医疗机构利用HISTAI训练的模型可实现自动化初筛,缩短病理诊断周期。制药企业则通过分析跨组织药效反应模式,加速靶向药物研发。其皮肤癌子集(HISTAI-skin)已成功应用于远程医疗系统,帮助基层医院实现精准分级诊疗。
数据集最近研究
最新研究方向
随着数字病理学领域的快速发展,HISTAI数据集作为大规模、多模态的开放式全切片图像资源,正推动计算病理学的前沿研究。该数据集涵盖超过60,000张多样化组织类型的切片,并附有详尽的临床元数据,为AI模型的鲁棒性和泛化能力提供了重要支撑。当前研究热点聚焦于基于该数据集开发基础模型,探索跨组织类型的迁移学习,以及整合临床元数据的多模态分析方法。HISTAI的开放共享特性不仅解决了现有病理数据资源在规模、多样性和标注完整性方面的局限,更为肿瘤诊断算法、预后预测模型等临床应用研究提供了关键基础设施。其与SPIDER等衍生数据集的协同使用,正在构建新一代计算病理学研究体系。
相关研究论文
  • 1
    HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational PathologyHistAI · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作