five

PathOrchestra

收藏
arXiv2025-04-01 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.24345v1
下载链接
链接失效反馈
官方服务:
资源简介:
PathOrchestra数据集是由上海人工智能实验室等多个机构共同创建的,包含30万张来自20种不同组织和器官的病理切片的图像数据集。这些图像数据来源于三个中心的内部收藏和公共数据集。数据集被用于训练PathOrchestra模型,该模型通过自监督学习在无标签数据上学习高质量的特征表示,进而在有限的标注数据和参数下,在下游任务中表现出色。该数据集涵盖了数字切片预处理、全癌分类、病变识别、多癌亚型分类、生物标志物评估、基因表达预测和结构化报告生成等多种临床任务,旨在促进计算病理学领域的发展。

PathOrchestra dataset was jointly created by Shanghai AI Laboratory and multiple other institutions. It is a dataset containing 300,000 pathological slide images from 20 different tissues and organs. These image data are sourced from the internal collections of three centers and public datasets. The dataset is used to train the PathOrchestra model, which learns high-quality feature representations on unlabeled data via self-supervised learning, achieving excellent performance in downstream tasks with limited labeled data and model parameters. This dataset covers various clinical tasks including digital slide preprocessing, pan-cancer classification, lesion recognition, multi-cancer subtype classification, biomarker assessment, gene expression prediction and structured report generation, aiming to promote the development of the field of computational pathology.
提供机构:
上海人工智能实验室
创建时间:
2025-04-01
搜集汇总
数据集介绍
main_image_url
构建方式
PathOrchestra数据集的构建基于自监督学习框架DINOv2,采用了教师-学生网络架构的视觉Transformer(ViT)。该模型在包含300,000张病理切片(262.5 TB)的大规模数据集上进行预训练,覆盖20种组织和器官类型,数据来源于多个医疗中心。预训练过程中,通过多尺度、多视角的数据增强技术,模型能够从不同分辨率和细节层次的图像中学习到鲁棒的特征表示。此外,采用指数移动平均(EMA)机制更新教师网络的参数,确保特征表示的平滑性和稳定性。
使用方法
PathOrchestra数据集的使用方法多样且灵活。对于下游任务,可以采用线性探测(linear probing)或微调(fine-tuning)策略。在分类任务中,推荐使用基于注意力的多实例学习框架(ABMIL);在分割任务中,可采用Mask2Former模型并结合ViT适配器进行优化。数据集支持多种评估指标,如平衡准确率(ACC)、加权F1分数、接收者操作特征曲线下面积(AUC)等。此外,模型权重和代码将公开发布,便于非商业学术用途的研究和应用。
背景与挑战
背景概述
PathOrchestra是由上海人工智能实验室、第四军医大学、清华大学深圳国际研究生院等多家机构联合开发的计算病理学基础模型,于2025年3月正式发布。该模型基于自监督学习框架,在包含20种组织器官类型、总量达300K病理切片(262.5TB)的多中心数据集上训练而成,覆盖数字切片预处理、泛癌分类、病变识别、多癌亚型分类等7大类112项临床级任务。作为首个能够生成结直肠癌和淋巴瘤结构化报告的病理模型,PathOrchestra通过整合HE染色图像和免疫组化标记分析,显著提升了复杂疾病的诊断效率,为临床病理工作流程的智能化提供了重要基础设施。
当前挑战
该数据集面临三大核心挑战:1) 领域问题层面,需解决千兆像素级全切片图像的多尺度特征提取问题,同时克服肿瘤异质性带来的分类困难;2) 构建过程中面临多中心数据标准化难题,需统一来自不同扫描仪厂商(.svs/.sdpc/.kfb/.mdsx)的切片格式;3) 临床验证阶段需在27,755张WSI和9,415,729个ROI图像上完成112项异构任务的评估,其中47项任务要求准确率超过0.950。此外,模型在炎症性疾病鉴别、前列腺癌Gleason分级等复杂任务中仍存在性能提升空间。
常用场景
经典使用场景
PathOrchestra作为计算病理学领域的基石模型,其经典使用场景涵盖全切片图像(WSI)的多任务分析。该模型通过自监督学习在30万张病理切片上预训练,能够高效处理20种不同器官组织的病理图像,特别适用于跨医疗中心的泛癌种分类任务。在CAMELYON16/17乳腺癌转移检测中,模型以1.00的AUC值实现淋巴结微转移的精准定位,同时在TCGA数据集上完成32类FFPE/冰冻样本的跨制备方法分类,展现了处理异质性数据的卓越能力。
解决学术问题
该数据集有效解决了病理AI领域的三个核心问题:一是通过自监督学习减少对大规模标注数据的依赖,在112项临床任务中47项准确率超过0.950;二是突破传统模型在结直肠癌和淋巴瘤结构化报告生成中的空白,首次实现从H&E染色图像到免疫组化分析的端到端诊断;三是建立多尺度特征学习框架,通过DINOv2架构同步捕获组织架构全局特征和细胞核局部特征,在PanNuke数据集上核分割Dice系数达0.849,显著提升分子病理学研究中基因表达预测的准确性。
实际应用
在实际医疗场景中,PathOrchestra已部署于癌症早期筛查、精准分型和治疗决策支持系统。例如在淋巴瘤临床诊断中,模型整合29种免疫组化标记物分析,将Angioimmunoblastic T-cell Lymphoma亚型诊断准确率提升至97.5%;在结直肠癌诊疗路径中,系统可自动生成包含肿瘤分级、息肉类型分类的结构化报告,较传统病理诊断效率提升8倍。此外,其生物标志物评估模块在HER2(0.988 AUC)和PD-L1(0.927 AUC)等关键治疗靶点检测中达到临床可用标准。
数据集最近研究
最新研究方向
PathOrchestra作为计算病理学领域的开创性基础模型,其最新研究聚焦于多模态任务泛化与临床转化应用。在技术层面,研究重点包括:1)基于自监督对比学习的超大规模病理图像表征优化,通过300K全切片图像的跨器官预训练,实现112项临床任务的零样本迁移;2)多尺度特征融合架构的创新,采用DINOv2框架的师生网络动态交互机制,在27,755张WSI和940万ROI图像上达成47项任务准确率超过0.950的突破性表现。临床转化方向的热点包括:1)结构化报告生成系统的临床验证,特别是在结直肠癌和淋巴瘤等复杂疾病的自动化诊断流程中的应用;2)分子病理学交叉研究,如通过H&E图像预测50种癌症相关基因表达谱的可行性探索。该数据集通过整合TCGA等61个私有和51个公共数据源,推动了数字病理从单一分类任务向涵盖生物标志物评估、病变分割、预后预测的全流程智能诊断范式转变。
相关研究论文
  • 1
    PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作