hpa10m

Hugging Face2026-01-31 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/nirschl-lab/hpa10m

下载链接

链接失效反馈

官方服务：

资源简介：

HPA10M 是一个大规模免疫组织化学（IHC）图像数据集，源自人类蛋白质图谱（HPA），包含约1050万张病理学和组织学图像，并附有详细注释。数据集总计10,495,672张图像，分为训练集（10,493,672张图像）和验证集（2,000张图像），其中病理学图像7,970,595张，组织学图像2,525,077张。数据以JPEG图像和JSON元数据的形式存储，采用WebDataset格式的tar文件组织。每个JSON文件包含丰富的注释信息，如基因名称、Ensembl基因ID、UniProt蛋白ID、组织或癌症类型、细胞类型、患者信息、SNOMED-CT代码、染色特征、分割数据以及自然语言描述等。数据集适用于计算机视觉、医学图像分析、蛋白质表达研究等任务。数据来源于人类蛋白质图谱（https://www.proteinatlas.org/），使用许可遵循CC-BY-SA-4.0协议。

创建时间：

2026-01-28

搜集汇总

数据集介绍

构建方式

在生物医学影像分析领域，大规模标注数据集的构建是推动算法进步的关键。HPA10M数据集源自人类蛋白质图谱（Human Protein Atlas），通过系统化整合约1050万张免疫组织化学图像及其丰富元数据而成。该数据集采用WebDataset格式组织，将图像与对应的JSON标注文件配对存储于tar归档中，并依据图像类别（病理学或组织学）和基因前缀进行层级划分，确保了数据的高效访问与管理。索引文件以Feather格式提供，记录了每张图像在归档中的字节偏移和大小，为快速数据检索奠定基础。

特点

HPA10M数据集以其宏大的规模和精细的标注体系脱颖而出，涵盖了近1050万张高分辨率病理学与组织学图像。每张图像均附带结构化的JSON元数据，包含基因标识、临床信息（如患者年龄、性别、组织类型）、染色特征（强度、定位、数量）以及语义描述性标题。此外，数据集提供了边界框和分割掩码等视觉标注，支持细粒度的物体检测与分割任务。这种多模态、多层次的信息整合，使其成为蛋白质表达分析与计算病理学研究的宝贵资源。

使用方法

为有效利用HPA10M数据集，研究者可首先通过Pandas加载Feather格式的索引文件，依据分割（训练或验证）或图像类型进行数据筛选。数据集以WebDataset标准打包，便于使用兼容框架进行流式加载与批处理。JSON文件中的结构化标注可直接用于监督学习，例如训练图像分类、目标检测或图像描述生成模型。丰富的临床与分子注释也为跨模态研究，如关联基因表达与视觉形态，提供了坚实的数据基础。

背景与挑战

背景概述

在计算病理学与蛋白质组学交叉领域，大规模、高质量标注的组织病理学图像数据集对于推动人工智能辅助诊断与蛋白质表达研究至关重要。HPA10M数据集于近年由威斯康星大学麦迪逊分校和宾夕法尼亚大学的研究团队基于人类蛋白质图谱（Human Protein Atlas）构建，其核心研究问题聚焦于如何利用超过千万张免疫组织化学图像，系统解析蛋白质在正常组织与癌症病变中的空间分布模式。该数据集通过整合基因标识、临床病理信息及像素级分割标注，为开发可解释的计算机视觉模型提供了坚实基础，显著促进了精准医学与生物标志物发现领域的发展。

当前挑战

该数据集旨在解决蛋白质表达模式自动识别与定量分析这一复杂领域问题，其挑战在于病理图像中存在显著的类内差异与类间相似性，例如不同组织背景下相同蛋白质的表达形态可能迥异，而不同蛋白质在特定细胞区域的染色模式又可能高度相似，这对模型的判别能力提出了极高要求。在构建过程中，研究团队面临数据标准化与标注一致性的严峻挑战，原始图像来源于多样化的实验条件与染色流程，需进行严格的质控与归一化处理；同时，为海量图像生成精确的边界框与分割掩码涉及大量人工校对，确保临床元数据与图像区域的对齐是一项耗时且易错的工程。

常用场景

经典使用场景

在计算病理学与生物医学图像分析领域，HPA10M数据集凭借其大规模免疫组织化学图像与丰富注释，常被用于蛋白质表达模式识别与组织病理学分类任务。研究者利用该数据集训练深度学习模型，以自动解析病理图像中的蛋白质定位、强度及分布特征，从而揭示基因表达与疾病表型之间的关联，为高通量生物医学图像分析提供标准化基准。

解决学术问题

该数据集有效解决了生物医学图像分析中标注数据稀缺、规模有限的核心挑战，为蛋白质亚细胞定位、组织病理学图像分割及多模态学习等研究提供了可靠数据支撑。其详尽的基因、组织及临床注释，使得跨模态关联分析成为可能，推动了计算病理学从单一图像分类向细粒度、可解释性分析的范式转变，显著提升了模型在复杂生物场景中的泛化能力。

衍生相关工作

基于HPA10M，学术界已衍生出一系列经典工作，包括蛋白质表达预测模型、组织病理学图像生成与增强方法，以及多任务学习框架。这些研究不仅推动了自监督预训练、视觉-语言模型在生物医学领域的适配，也为构建通用病理学基础模型提供了关键数据源，持续引领计算病理学的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集