Multi-Modal-Datasets-for-CPath

github2025-03-18 更新2025-04-13 收录

下载链接：

https://github.com/cool-breeze-and-rain/Multi-Modal-Datasets-for-CPath

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库提供了一个全面的多模态计算病理学数据集列表。数据集根据其数据类型、描述、染色、数据源和其他属性进行分类。染色类型：H: H&E, I: IHC, O: 其他。

This repository provides a comprehensive list of multimodal computational pathology datasets. Datasets are categorized based on their data type, description, staining type, data source and other attributes. Staining types: H: H&E, I: IHC, O: Others.

创建时间：

2025-03-18

原始信息汇总

Multi-Modal-Datasets-for-CPath 数据集概述

数据集分类

1. 图像-文本对数据集

QUILT

数据类型: 切片-标题对
描述: 437,878个切片与802,404个标题，提取自4,475个视频
染色类型: H, I, O
数据来源: YouTube
公开性: 公开
方法: QUILT-1M
LLM辅助: 否

PathCap

数据类型: 切片-标题对
描述: 208k病理切片-标题对
染色类型: H, I, O
数据来源: PubMed
公开性: 公开
方法: PathCLIP
LLM辅助: 否

OpenPath

数据类型: 切片-标题对
描述: 208,014个切片-标题对
染色类型: I, O
数据来源: WSI-Twitter, Repositories, Internet
公开性: 公开
方法: PLIP
LLM辅助: 否

CONCH

数据类型: 切片-标题对
描述: 1,170,674个切片-标题对
染色类型: H, I
数据来源: PMC-OA
公开性: 公开
方法: CONCH
LLM辅助: 否

HistGen

数据类型: WSI-报告对
描述: 75,723个WSI-报告对
染色类型: H
数据来源: PMC-OA
公开性: 公开
方法: HistGen
LLM辅助: 否

Mass-3QK

数据类型: WSI
描述: 335,665个WSI，涵盖20个器官
染色类型: H, M, I
数据来源: GTEx
公开性: 私有
方法: TITAN
LLM辅助: 否

CAPTION-PATCH CAPTION

数据类型: 切片-标题对
描述: 10.5百万个切片-标题对，来自多样化数据集
染色类型: H, I, O
数据来源: TCGA
公开性: 公开
方法: PathGen-CLIP
LLM辅助: 否

MUNICH

数据类型: WSI-报告对
描述: 15,129个WSI和病理报告对，来自6,705名患者
染色类型: I
数据来源: TCGA
公开性: 公开
方法: HistGenGPT
LLM辅助: 否

PCAPTION-C

数据类型: 切片-标题对
描述: 1,409,058个切片-标题对，移除非人类病理数据并过滤掉少于20个单词的对
染色类型: H, I, O
数据来源: PMC-OA, QUILT-1M
公开性: 公开
方法: PA-LaVA
LLM辅助: 是

ARCHI

数据类型: 包-标题对
描述: 21,186个包和15,164个图像，每个包包含多个切片。多样化数据集包含33,480个切片-标题对
染色类型: H, I, O
数据来源: PubMed
公开性: 公开
方法: PathBench
LLM辅助: 否

MI-ZERO

数据类型: 切片-标题对
描述: 来自教育资源的切片-标题对
染色类型: H, I, O
数据来源: ARCHI
公开性: 公开
方法: ARCHI
LLM辅助: 否

2. 多模态指令数据集

PathInstrucT

数据类型: 切片级指令
描述: 180k病理多模态指令跟随样本
染色类型: H, I, O
数据来源: YouTube
公开性: 公开
方法: PathInstrucT
LLM辅助: 否

CAPTION-PATCH Instruction

数据类型: 切片级指令
描述: 351,871个切片级样本，包括切片-标题对、VQA对以及分类和提示任务的指令
染色类型: H
数据来源: CAPTION-VQA, PathGen, CAPTION-PATCH
公开性: 公开
方法: CPath-Omni
LLM辅助: 是

CAPTI-WSI Instruction

数据类型: WSI级指令
描述: 7,312个WSI级样本，包括标题生成、VQA和分类
染色类型: H
数据来源: HistGen
公开性: 公开
方法: CAPTI
LLM辅助: 否

QUILT-Instruct

数据类型: VQA对
描述: 107,131个问题/答案对
染色类型: H
数据来源: YouTube
公开性: 公开
方法: QUILT-Instruct
LLM辅助: 否

PathCapQ&A Bench

数据类型: 切片级指令
描述: 456,916个指令和999,022个问答对
染色类型: H
数据来源: PMC-OA, TCGA
公开性: 公开
方法: PathCapBench
LLM辅助: 是

CLOVER

数据类型: 指令
描述: 45k个问答指令对
染色类型: I
数据来源: PathVQA
公开性: 公开
方法: CLOVER
LLM辅助: 否

搜集汇总

数据集介绍

构建方式

在计算病理学领域，多模态数据集的构建需要整合多样化的数据源和标注方法。Multi-Modal-Datasets-for-CPath通过系统化收集公开可用的病理图像与文本配对数据，涵盖了H&E染色、免疫组化（IHC）及其他特殊染色类型的样本。数据集主要来源于YouTube视频字幕提取、PubMed文献摘要、TCGA等权威生物医学数据库，采用自动化标注与人工校验相结合的方式确保数据质量。其中，部分数据集如PCAPTION-C还引入了大语言模型辅助清洗非人类病理数据，体现了构建方法的先进性与严谨性。

特点

该数据集的核心价值在于其多模态特性与规模优势。不仅包含常规的切片-描述对（如QUILT的80万条caption），还创新性地整合了WSI-报告对（如HistGen的7.5万例）、教学指令数据（PathInstrucT的18万条指令）等多元形式。染色类型覆盖H&E、IHC等主流技术，数据量级从数万到百万不等，特别是CONCH的117万配对数据为模型预训练提供了充足资源。值得注意的是，CAPTION-PATCH等数据集通过VQA任务设计，实现了病理图像理解与自然语言处理的深度耦合。

使用方法

研究者可通过GitHub仓库快速获取各子数据集的元信息与访问链接。对于图像-文本配对类数据，建议采用跨模态对比学习框架（如CLIP架构）进行特征对齐；WSI-报告数据集则适用于生成式模型训练，如基于GPT的病理报告自动生成。使用指令数据集时，可参照PathCapQ&A Bench的模板设计few-shot学习任务。需注意不同数据集的授权状态，私有数据如Mass-3QK需申请权限，而多数公开数据集可直接用于非商业研究。数据预处理阶段应结合染色类型标准化图像，并利用PLIP等专业工具进行文本嵌入。

背景与挑战

背景概述

Multi-Modal-Datasets-for-CPath数据集由计算病理学领域的研究者于近年构建，旨在整合多模态病理学数据以推动智能诊断技术的发展。该数据集汇集了来自YouTube、PubMed、TCGA等多样化来源的病理切片图像与文本描述，涵盖H&E、IHC等多种染色类型，为深度学习模型训练提供了丰富的标注资源。其核心研究问题聚焦于解决病理图像与临床文本间的语义鸿沟，通过构建大规模的图像-文本对数据集，促进跨模态表征学习在癌症诊断、预后预测等关键场景的应用，显著提升了计算病理学模型的泛化能力和可解释性。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，病理图像的巨大尺寸与复杂组织形态对传统计算机视觉算法构成严峻考验，而医学文本的专业性要求标注过程具备深厚的临床知识；在构建过程中，多源数据的异质性导致标准化处理困难，不同染色方法的图像需采用差异化预处理流程，且部分敏感医疗数据的隐私保护机制与开源需求存在固有矛盾。此外，跨模态对齐任务需要精确匹配微观病理特征与宏观临床描述，这种细粒度标注工作对专业病理学家的依赖成为规模化扩展的瓶颈。

常用场景

经典使用场景

在计算病理学领域，Multi-Modal-Datasets-for-CPath数据集为研究者提供了丰富的多模态数据资源。这些数据集广泛应用于图像-文本配对任务，如病理切片与诊断报告的自动关联分析。例如，QUILT和PathCap数据集通过海量的病理切片与文本描述配对，支持视觉语言预训练模型的开发，为病理图像的自动化解读奠定了数据基础。

解决学术问题

该数据集有效解决了计算病理学中多模态数据稀缺的瓶颈问题。通过整合H&E染色、免疫组化等多种染色类型的病理图像与文本描述，为跨模态表征学习、病理报告自动生成等研究提供了标准化数据支持。特别在弱监督学习场景下，CONCH等大规模数据集显著提升了模型对病理图像的语义理解能力。

衍生相关工作

基于该数据集已衍生出多项标志性研究成果。PathCLIP和PLIP模型利用PathCap和OpenPath数据实现了病理图像的零样本分类。HistGenGPT通过WSI-Report配对数据开发了病理报告生成系统。近期PA-LaVA等模型进一步结合LLM技术，在PCAPTION-C数据上实现了病理图像的复杂语义推理。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集