BrEast cancEr hisTopathoLogy sEgmentation (BEETLE)

Name: BrEast cancEr hisTopathoLogy sEgmentation (BEETLE)
Creator: Radboud University Medical Center, Nijmegen, The Netherlands
Published: 2025-10-02 22:09:21
License: 暂无描述

arXiv2025-10-02 更新2024-06-21 收录

下载链接：

https://zenodo.org

下载链接

链接失效反馈

官方服务：

资源简介：

BEETLE数据集是一个多中心、多扫描仪的数据集，用于多类语义分割乳腺癌H&E切片，包括活检和手术切除。它扩展并协调了未发布的数据，来自Van Rijthoven等人、Aswolinskiy等人以及Pozzi等人，以及TIGER数据集和TCGA-BRCA数据集。据我们所知，我们的数据集是第一个包含两种主要乳腺癌组织学亚型、所有分子亚型和所有组织学等级的数据集。注释涵盖四个分割类别，即浸润性上皮（即浸润性肿瘤）、非浸润性上皮、坏死和其他。我们采用了有针对性的数据收集方法，重点关注现有公开数据集中很少代表的乳腺癌形态，以及难以分割的组织结构，如DCIS，通常被误认为是浸润性肿瘤，以及单独分散的肿瘤细胞。为了做到这一点，我们使用了各种注释策略，包括但不限于病理学家的手动注释，定制的上皮分割网络和基于HoVerNet的注释孤立的肿瘤细胞管道。最后，我们提供了一个精心策划的外部评估集，用于基准测试乳腺癌分割模型，该集从三个临床中心收集，并使用三种不同的扫描仪数字化。该集包括来自54个WSIs的170个密集注释感兴趣区域（ROIs），捕捉了临床诊断中遇到的许多乳腺癌异质性。虽然图像在Zenodo上公开可用，但相应的注释被封锁在Grand Challenge平台上，在那里提交被排名在公共排行榜上。这种设置可以实现标准化、可比的新方法基准测试，从而推动乳腺癌

BEETLE Dataset is a multi-center, multi-scanner dataset for multi-class semantic segmentation of breast cancer H&E slides, including both biopsy and surgical resection specimens. It expands and harmonizes unpublished data from Van Rijthoven et al., Aswolinskiy et al., and Pozzi et al., as well as the TIGER and TCGA-BRCA datasets. To our knowledge, our dataset is the first to include both major histological subtypes of breast cancer, all molecular subtypes, and all histological grades. Annotations cover four segmentation categories: invasive epithelium (i.e., invasive tumor), non-invasive epithelium, necrosis, and others. We adopted a targeted data collection approach focusing on breast cancer morphologies that are rarely represented in existing public datasets, as well as histologically challenging structures to segment, such as DCIS, which is often misidentified as invasive tumor, and isolated individual tumor cells. To achieve this, we employed various annotation strategies including, but not limited to, manual annotation by pathologists, a custom epithelial segmentation network, and a HoVerNet-based pipeline for annotating isolated tumor cells. Finally, we provide a carefully curated external evaluation set for benchmarking breast cancer segmentation models, which was collected from three clinical centers and digitized using three different scanners. This set includes 170 densely annotated regions of interest (ROIs) from 54 WSIs, capturing many instances of breast cancer heterogeneity encountered in clinical diagnosis. While the images are publicly available on Zenodo, the corresponding annotations are locked on the Grand Challenge platform, where submissions are ranked on a public leaderboard. This setup enables standardized, comparable benchmarking of novel methods, thereby advancing breast cancer

提供机构：

Radboud University Medical Center, Nijmegen, The Netherlands

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

CODES数据集的构建基于四个预实现的代理架构和五个数据集，这些数据集主要来源于天体化学领域。数据集包括osu2008、branca24、lotka_volterra、simple_ode和simple_reaction，涵盖了从复杂化学反应网络到低维基准系统的多种场景。每个数据集均以hdf5格式存储，包含训练、验证和测试数据，以及相关的元数据如时间步长和化学物种数量。数据集的构建过程确保了数据的全面性和代表性，为评估代理模型在不同条件下的表现提供了坚实基础。

特点

CODES数据集的显著特点在于其多维度的评估能力，不仅涵盖了传统的均方误差（MSE）和推理时间等指标，还引入了插值、外推、稀疏数据处理、不确定性量化和梯度相关性等多个维度。此外，数据集强调了易用性，通过集成并行训练、基于网页的配置生成器以及预实现的基线模型和数据集，极大地简化了用户的使用流程。全面的文档支持确保了项目的可持续性和协作改进的可能性。

使用方法

使用CODES数据集时，用户首先通过配置文件定义模型的训练和评估参数，包括选择特定的代理架构和数据集。训练过程支持并行化，以加速大规模模型的训练。训练完成后，系统自动生成包括均方误差、平均绝对误差、推理时间等在内的多种评估指标，并通过图表直观展示模型的性能。用户还可以通过切换不同的评估模式，如插值、外推和稀疏数据处理，深入分析模型在不同条件下的表现，从而选择最适合特定任务的代理模型。

背景与挑战

背景概述

在自然科学领域，耦合常微分方程（ODEs）的应用极为广泛，其求解过程往往依赖于计算密集型的数值方法。为应对这一挑战，机器学习模型（即代理模型）被引入以替代传统的数值求解方法。然而，尽管已有多种代理模型被提出，但缺乏一个全面且公平的基准来比较这些模型在不同架构下的表现。CODES（Coupled ODE Surrogates）数据集应运而生，由海德堡大学跨学科科学计算中心的研究团队创建，旨在提供一个全面的框架，用于评估耦合ODE系统中的代理模型。该数据集不仅关注模型的准确性、训练和推理时间，还深入探讨了模型在插值、外推、稀疏数据处理、不确定性量化及梯度相关性等多个维度上的行为。

当前挑战

CODES数据集面临的挑战主要集中在两个方面。首先，构建过程中需确保不同代理模型在同一基准下的公平比较，这要求对所有模型进行一致的训练和评估。其次，数据集需涵盖多种复杂性和规模的ODE系统，以全面评估代理模型的性能。此外，如何在稀疏数据和高动态区域中有效表现，以及如何准确量化预测的不确定性，也是该数据集需要解决的关键问题。这些挑战不仅影响模型的选择，还对代理模型是否真正捕捉到数据背后的动态特性提出了更高的要求。

常用场景

经典使用场景

CODES数据集的经典使用场景主要集中在评估和比较不同代理架构在耦合常微分方程（ODE）系统中的表现。通过提供多种度量标准，如均方误差（MSE）和推断时间，CODES不仅关注模型的准确性，还深入分析了模型在插值、外推、稀疏数据处理、不确定性量化以及梯度相关性等多个维度上的行为。这使得研究人员能够全面了解各代理架构的优缺点，从而选择最适合其特定数据集和应用的模型。

衍生相关工作

CODES数据集的引入催生了一系列相关研究工作，特别是在代理模型的优化和扩展方面。例如，基于CODES的评估结果，研究人员开发了新的代理架构，如LatentNeuralODE和LatentPoly，这些架构在处理稀疏数据和不确定性量化方面表现出色。此外，CODES还促进了跨学科的合作，推动了机器学习在自然科学中的应用，尤其是在需要高精度模拟的领域。

数据集最近研究