JLrumberger/Pan-Multiplex

Name: JLrumberger/Pan-Multiplex
Creator: JLrumberger
Published: 2024-06-02 13:08:44
License: 暂无描述

Hugging Face2024-06-02 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/JLrumberger/Pan-Multiplex

下载链接

链接失效反馈

官方服务：

资源简介：

Pan-Multiplex (Pan-M)数据集是为了训练Nimbus模型而构建的，用于出版物《使用Nimbus自动分类多重成像数据中的细胞表达》。该数据集包含来自不同模态、组织和蛋白质标记面板的多重图像。数据集通过半自动管道构建，其中原始研究中作者分配的细胞类型被映射回其预期的标记活性。此外，对于每个数据集的3个视野，4位专家注释者校对了约110万条注释，这些注释作为评估算法的金标准。数据集由五个子集组成，分别命名为`codex_colon`、`mibi_breast`、`mibi_decidua`、`vectra_colon`和`vectra_pancreas`，每个子集位于单独的文件夹中。解压后，数据应存储在指定的文件夹结构中，以便使用提供的代码进行训练和推理。

提供机构：

JLrumberger

原始信息汇总

Pan-Multiplex (Pan-M) 数据集

概述

Pan-Multiplex (Pan-M) 数据集是为了训练 Nimbus 模型，用于发表的论文 "Automated classification of cellular expression in multiplexed imaging data with Nimbus" 而构建的。该数据集包含来自不同模态、组织和蛋白质标记面板的多重成像数据。

构建方法

数据集通过半自动流程构建，原始研究数据的作者分配的细胞类型被映射回其预期的标记活性。此外，每个数据集的3个视野由4位专家注释者校对约110万个注释，这些注释作为评估算法的金标准。

数据集结构

数据集包含五个子集，分别存储在单独的文件夹中：

codex_colon
mibi_breast
mibi_decidua
vectra_colon
vectra_pancreas

数据集的文件夹结构如下：

. ├── data │ ├── codex_colon │ ├── vectra_colon │ ├── vectra_pancreas │ ├── mibi_decidua │ ├── mibi_breast │ ├── experimental_results.csv │ ├── gt_pred_ie_consolidated.csv

使用方法

解压缩后，数据应存储在上述文件夹结构中，以便使用提供的代码进行训练和推理。构建用于训练的二进制分割图，可以使用 segmentation_data_prep.py 和 simple_data_prep.py 代码。

引用

使用该数据集时，请引用以下论文：

@article{rum2024nimbus, title={Automated classification of cellular expression in multiplexed imaging data with Nimbus}, author={Rumberger, J. Lorenz and Greenwald, Noah F. and Ranek, Jolene S. and Boonrat, Potchara and Walker, Cameron and Franzen, Jannik and Varra, Sricharan Reddy and Kong, Alex and Sowers, Cameron and Liu, Candace C. and Averbukh, Inna and Piyadasa, Hadeesha and Vanguri, Rami and Nederlof, Iris and Wang, Xuefei Julie and Van Valen, David and Kok, Marleen and Hollman, Travis J. and Kainmueller, Dagmar and Angelo, Michael}, journal={bioRxiv}, pages={2024--05}, year={2024}, publisher={Cold Spring Harbor Laboratory} }

搜集汇总

数据集介绍

构建方式

在数字病理学与多重成像技术蓬勃发展的背景下，Pan-Multiplex数据集的构建采用了一种半自动化的创新流程。该流程首先整合了来自不同成像模态、组织类型及蛋白质标记面板的多重成像数据，随后将原始研究中作者标注的细胞类型映射回其预期的标记物活性。为确保标注质量，研究团队邀请了四位专家对每个数据集的三个视野进行了人工校对，约110万个标注构成了评估算法的金标准，从而在自动化与专家验证之间取得了精妙平衡。

使用方法

为充分发挥Pan-Multiplex数据集的科研价值，使用者需遵循特定的数据处理流程。数据集下载解压后，应按照预设的目录结构组织数据文件，以确保与官方提供的训练和推理代码兼容。用户可利用附带的Python脚本，如`segmentation_data_prep.py`，将标注数据转换为用于模型训练的二进制分割图。在具体应用中，研究者可分别针对不同子集进行模型训练与验证，并通过引用相关文献规范学术用途，从而推动多重成像数据分析方法的标准化与创新。

背景与挑战

背景概述

在数字病理学与空间生物学领域，多重成像技术能够同时检测组织样本中的多种蛋白质标记物，为解析细胞表型与微环境提供了前所未有的高维数据。Pan-Multiplex（Pan-M）数据集由J. Lorenz Rumberger、Michael Angelo等研究人员于2024年构建，旨在支持Nimbus模型的训练，以解决多重成像数据中细胞表达自动分类的核心研究问题。该数据集整合了来自不同模态、组织类型与标记物面板的多重图像，通过半自动流程将原始研究中的细胞类型映射至预期标记物活性，并辅以专家校对的金标准注释，显著提升了细胞分类的准确性与可重复性，对推动计算病理学与精准医学的发展具有重要影响力。

当前挑战

Pan-Multiplex数据集致力于应对多重成像数据中细胞表型自动分类的挑战，其核心在于处理高维、多模态图像数据的复杂性与异质性，需在标记物表达模式重叠、背景噪声干扰及组织形态变异等条件下实现精确的细胞识别。在构建过程中，研究人员面临多重困难：原始数据来自多个独立研究，其标注标准与成像协议存在差异，需通过半自动流程进行统一映射与整合；同时，为确保注释质量，依赖多位病理学专家对海量标注进行人工校对，这一过程耗时且需高度专业知识；此外，部分子集如MIBI Breast因原始研究尚未发表而暂时不可用，也反映了数据共享与时效性方面的实际约束。

常用场景

经典使用场景

在数字病理学与多重成像领域，Pan-Multiplex数据集为细胞类型自动分类模型的训练与验证提供了关键支持。该数据集整合了来自不同模态、组织及蛋白质标记面板的多重成像图像，通过半自动流程构建，并辅以专家校对的金标准注释。其经典使用场景集中于训练如Nimbus等先进算法，以实现对细胞表达模式的高精度自动化识别，为生物医学图像分析奠定了数据基础。

解决学术问题

Pan-Multiplex数据集有效解决了多重成像数据中细胞类型注释的标准化与可重复性难题。通过提供跨模态、跨组织的统一标注框架，该数据集支持研究人员开发鲁棒的机器学习模型，以克服传统手动注释的主观性与低效性。其意义在于推动了计算病理学的发展，为理解肿瘤微环境、免疫细胞分布等复杂生物学问题提供了可靠的数据工具，促进了精准医学研究的深入。

实际应用

在实际应用中，Pan-Multiplex数据集被广泛用于临床前研究与诊断辅助系统开发。例如，在结肠癌、乳腺癌及胰腺癌等疾病的病理分析中，基于该数据集训练的模型能够自动化识别组织切片中的细胞亚群，辅助病理学家快速评估免疫浸润状态或肿瘤异质性。这种应用不仅提升了诊断效率，还为个性化治疗策略的制定提供了数据驱动的见解。

数据集最近研究