Placenta

Name: Placenta
Creator: 牛津大学妇女与生殖健康系
Published: 2022-11-12 00:02:29
License: 暂无描述

arXiv2022-11-12 更新2024-06-21 收录

下载链接：

https://github.com/Nellaker-group/placenta

下载链接

链接失效反馈

官方服务：

资源简介：

Placenta数据集是由牛津大学妇女与生殖健康系创建，用于在未充分探索的领域——胎盘组织学全切片图像中的细胞图预测微观解剖组织结构。该数据集包含来自两个机构的两个胎盘组织学图像中的两个细胞图，总计2,395,747个节点，其中799,745个节点具有真实标签。数据集的创建过程涉及使用深度学习管道识别全切片图像中所有细胞的中心点，并将其分类为11种细胞类型之一。Placenta数据集的应用领域主要集中在科学研究中，旨在通过自动化方法量化组织结构单元，未来可能应用于临床组织病理学诊断和患者护理，同时也为开发新型可扩展图神经网络提供基准，以适应节点特征和类别标签的不平衡，理解图中的大小节点社区，并能抵抗数据的不完整性。

The Placenta Dataset was developed by the Department of Women's and Reproductive Health, University of Oxford, for predicting micro-anatomical tissue structures from cell graphs in whole-slide histopathology images of the placenta, an under-explored research domain. This dataset includes two cell graphs derived from two placental histopathology images sourced from two distinct institutions, containing a total of 2,395,747 nodes, out of which 799,745 nodes are annotated with ground-truth labels. The construction of this dataset utilizes a deep learning pipeline to identify the centroid coordinates of every cell within the whole-slide images and classify each cell into one of 11 cell types. The Placenta Dataset is primarily applied in scientific research, aiming to quantify tissue structural units through automated methods. In the future, it may be utilized in clinical histopathological diagnosis and patient care. Additionally, it serves as a benchmark for developing novel scalable graph neural networks, enabling adaptation to the imbalance of node features and category labels, understanding node communities of varying scales in graphs, and resisting data incompleteness.

提供机构：

牛津大学妇女与生殖健康系

创建时间：

2022-11-12

搜集汇总

数据集介绍

构建方式

在组织病理学领域，胎盘数据集的构建体现了细胞图表示方法的创新应用。该数据集源自两幅健康足月胎盘组织的苏木精-伊红染色全切片图像，通过两阶段深度学习流程完成细胞识别与特征提取。首先，采用预训练的细胞分类模型定位全切片中所有细胞核中心点，并将其归类为11种细胞类型；随后，将细胞核坐标映射为图节点坐标，并提取分类模型倒数第二层的64维嵌入向量作为节点特征。边的构建采用K近邻算法与Delaunay三角剖分的交集方法，以模拟细胞间潜在的生物学相互作用，最终形成包含2,395,747个节点的大型细胞图，其中799,745个节点具有经过病理学家验证的九类微解剖组织结构的真实标签。

特点

胎盘数据集在细胞图学习领域展现出独特的复杂性特征。其节点规模极为庞大，单幅图像即包含超过百万节点，突破了传统图数据集的规模限制。节点特征具有多维异质性，64维特征向量承载了11类细胞类型的分布信息。类别标签呈现显著的不平衡性，九类组织结构标签的比例分布在0.21%至40.0%之间，反映了真实的生物学分布规律。图结构表现出局部同质性与空间分布异质性并存的特性，同类细胞在图中形成空间分布的簇群，且组织结构的尺寸差异巨大，最小仅含11个节点，最大可达44,671个节点，这对模型的感受野设计提出了双重挑战。

使用方法

该数据集适用于归纳式节点分类任务，旨在预测细胞所属的胎盘微解剖组织结构。使用时应遵循论文推荐的训练-验证-测试划分方案，该划分考虑了胎盘组织的宏观位置特性，避免了邻域信息泄露。由于图规模超出GPU内存容量，需采用可扩展的图神经网络架构，如GraphSAGE、ClusterGCN等采样方法。实验设置建议采用加权交叉熵损失函数处理类别不平衡，使用Adam优化器进行训练，并设置适当的早停机制。数据集提供了三种边构建算法的比较基准，研究者可根据任务需求选择或设计新的邻接关系建模方法，以探索细胞相互作用的更优表示。

背景与挑战

背景概述

Placenta数据集于2022年由牛津大学、希伯来大学医学中心及塔尔图大学医院等机构的研究团队联合推出，旨在为图神经网络（GNN）领域提供一种全新的节点分类基准。该数据集聚焦于组织学全切片图像中的细胞图结构，核心研究问题在于从胎盘组织学的细胞图中预测微解剖组织结构的类别，从而推动计算病理学与图表示学习的交叉发展。其构建基于两幅健康足月胎盘的苏木精-伊红染色全切片图像，包含总计近240万个节点，其中约80万个节点具有经过病理学家验证的精细标注。这一数据集的发布填补了组织学细胞图在复杂图学习任务中的空白，为开发可扩展、鲁棒的GNN架构提供了关键实验平台，并对生物医学图像分析领域产生了深远影响。

当前挑战

Placenta数据集所针对的领域问题——从大规模细胞图中识别胎盘微解剖组织结构——面临多重挑战：细胞图规模极大（单图超百万节点），节点特征维度多样（64维细胞嵌入向量），类别标签高度不平衡（9类组织占比从0.21%至40%不等），且组织结构的空间分布呈现局部同质但全局异质的复杂模式。在构建过程中，研究团队需克服细胞图边构建的生物合理性难题，例如通过KNN与Delaunay三角剖分等方法近似模拟细胞间相互作用；同时，全切片图像的数据不完整性（如边缘截断、光学伪影）以及胎盘组织树状生长导致的单一结构多标签现象，进一步增加了高质量标注与模型泛化能力验证的难度。

常用场景

经典使用场景

在计算病理学领域，Placenta数据集作为图节点分类的新基准，其经典应用场景聚焦于从胎盘组织学全切片图像构建的细胞图中预测微解剖组织结构的归属。该数据集通过将细胞核坐标映射为图节点，并利用细胞分类模型的嵌入特征，构建了包含数百万节点的大规模细胞图，为图神经网络在生物医学图像分析中的性能评估提供了独特平台。其核心任务在于识别九种胎盘组织类型，这要求模型能够处理节点特征的多样性、类别标签的高度不平衡性以及组织结构的空间异质性分布，从而推动图学习算法在复杂生物系统建模中的创新。

解决学术问题

Placenta数据集针对图神经网络领域长期存在的若干挑战提供了解决方案。传统图数据集如Cora、Reddit等往往规模有限或类别平衡，难以充分测试模型在真实复杂场景下的泛化能力。该数据集通过引入超百万节点的大规模细胞图、高度不平衡的类别分布（从0.21%到40.0%）以及局部同质但全局分散的节点社区结构，有效解决了现有基准在数据复杂性、分割合理性方面的不足。其意义在于为图学习社区提供了更接近真实世界难题的评估环境，促进了能够处理数据不完整性、类别不平衡及多尺度社区识别的新型架构发展，推动了计算病理学与图机器学习的交叉融合。

衍生相关工作

Placenta数据集的发布催生了一系列围绕大规模细胞图分析的衍生研究。在方法学层面，它激励了针对类别不平衡与数据不完整性的图神经网络架构创新，例如改进的采样策略、自适应注意力机制以及多尺度特征聚合方法。在应用层面，该数据集启发了跨器官组织学图建模的研究，如将细胞图构建与分类框架迁移至结直肠癌或乳腺癌组织分析中。同时，其提供的基准性能评估促进了GraphSAGE、ClusterGCN、GraphSAINT等可扩展模型在生物医学图数据上的比较与优化，为后续结合自监督学习、多模态融合的病理图学习工作开辟了道路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集