MGRegBench

Name: MGRegBench
Creator: 莫斯科国立大学, Third Opinion平台
Published: 2025-12-19 22:10:36
License: 暂无描述

arXiv2025-12-19 更新2025-12-23 收录

下载链接：

https://github.com/KourtKardash/MGRegBench

下载链接

链接失效反馈

官方服务：

资源简介：

MGRegBench是由莫斯科国立大学和Third Opinion平台联合创建的乳腺X光图像配准基准数据集，旨在解决乳腺影像纵向分析中的配准难题。该数据集包含5000对图像，其中100对具有专家标注的解剖标志和乳腺分割掩膜，数据来源于公开的INbreast、KAU-BCMD和RSNA数据集。数据集通过严格的标注流程，包括两阶段放射科医生手动标注和验证，确保了标注质量。该数据集主要用于评估和比较不同乳腺X光图像配准算法的性能，支持从经典方法到深度学习方法的广泛研究，为乳腺癌症进展跟踪和计算机辅助诊断提供重要资源。

MGRegBench is a mammography image registration benchmark dataset jointly created by Lomonosov Moscow State University and the Third Opinion platform, aiming to address the registration challenges in longitudinal analysis of mammographic images. This dataset contains 5000 image pairs, among which 100 pairs are furnished with expert-annotated anatomical landmarks and breast segmentation masks. The data is sourced from publicly available INbreast, KAU-BCMD and RSNA datasets. The dataset ensures annotation quality via a rigorous annotation workflow, which includes two-stage manual annotation and verification conducted by radiologists. It is mainly used to evaluate and compare the performance of various mammography image registration algorithms, supporting extensive research ranging from classical methods to deep learning-based approaches, and serving as a critical resource for breast cancer progression tracking and computer-aided diagnosis.

提供机构：

莫斯科国立大学, Third Opinion平台

创建时间：

2025-12-19

原始信息汇总

MGRegBench 数据集概述

数据集简介

MGRegBench 是首个用于二维乳腺X光图像配准的大规模公开基准数据集，旨在解决该领域长期缺乏公开、标准化基准的问题。该数据集包含超过5000对图像，其中100对包含手动标注的解剖标志点和分割掩膜，用于严格的评估。

数据集结构

数据集主要分为训练集和评估集两个目录，用于方法开发和性能评估。

数据来源与组织

数据来源：数据主要来源于 INBreast 和 KAU-BCMD 两个公开数据集。
组织方式：数据按患者组织，使用匿名ID命名的患者文件夹。每个患者文件夹包含2张（某些情况下更多）图像。
- INBreast：提供PNG格式图像（以及原始DICOM文件）。
- KAU-BCMD：提供JPG格式图像。
RSNA数据集：由于许可限制，RSNA数据集不随本仓库分发。但提供了一个脚本，当在本地官方RSNA数据集副本上运行时，可提取相关图像对并将其转换为PNG格式，集成到MGRegBench结构中，以确保可复现性并遵守数据协议。

标注数据

分割掩膜：真实的分割掩膜位于 evaluation-masks 目录中，其结构与图像目录镜像对应。所有3个源数据集（INBreast、KAU-BCMD及处理后的RSNA）的掩膜均以PNG格式存储。
解剖标志点：评估集的专家解剖标志点标注存储在3个独立的XML文件中：
1. moving_landmarks.xml：第一位放射科医生对每对图像中第一张图像的标注。
2. fixed_landmarks_1.xml：同一位放射科医生对第二张图像的对应标注。
3. fixed_landmarks_2.xml：第二位放射科医生对第二张图像的独立标注，用于观察者间验证。
标注协议：详细的标注协议，包括对应标志点位置的示例，在 Protocol.pdf 文件中提供。

评估方法

在MGRegBench上评估了一系列多样化的配准方法，涵盖：

基于经典优化的方法：Affine、ANTs (SyN)、基于曲线坐标的方法。
深度学习架构：VoxelMorph、TransMorph、MammoRegNet。
隐式神经表示：IDIR (INR)。

使用说明

数据准备

克隆代码仓库并安装依赖。
解压数据集文件 Dataset/MGRegBench.zip。
如需包含RSNA数据，需先从其官方来源下载，然后运行提供的脚本 Dataset/prepare_rsna_for_mgregbench.py 进行集成。

方法运行

每种配准方法在 Methods/ 目录下有其独立的子目录和运行脚本。

经典方法：如Affine和SyN，提供了从头运行（run_from_scratch.py）和应用预计算变换（run.py）两种脚本。评估集的患者文件夹中已包含预计算的Affine变换矩阵（affine.mat）和SyN形变场（warp.nii.gz）。
深度学习方法：如VoxelMorph、TransMorph和MammoRegNet，分别提供了训练和推理脚本。

参考文献

数据集与论文引用了相关配准方法的原始文献，包括Advanced Normalization Tools (ANTs)、VoxelMorph、TransMorph、MammoRegNet等。

搜集汇总

数据集介绍

构建方式

在乳腺影像配准领域，公开数据集的稀缺长期制约着算法研究的可复现性与公平比较。MGRegBench的构建旨在填补这一空白，其核心策略是整合多个公开可用的乳腺X线摄影数据集——包括INbreast、KAU-BCMD和RSNA——并从中系统性地提取具有临床意义的图像对。构建过程首先依据患者ID、乳房侧向（左/右）和投照体位（CC/MLO）的一致性，筛选出同一乳房在相同投照角度下的图像，形成可用于配准的配对。对于提供检查时间戳的数据集（INbreast和KAU-BCMD），进一步构建了跨时间点的纵向配对，以模拟疾病进展追踪的实际场景。最终，数据集被划分为包含5,907个图像对的训练集和包含100个图像对的评估集，其中评估集通过分层抽样确保了在乳房密度、患者年龄及术后病例等关键临床特征上的均衡代表性。

特点

MGRegBench的显著特征在于其规模与标注质量。作为目前最大的公开二维配准基准数据集之一，它提供了超过5,000个乳腺X线摄影图像对，其中100个评估对包含了由专业放射科医师手动标注的解剖标志点和乳房分割掩膜。这些标志点涵盖了微钙化点、血管或导管弯曲处、交叉点、分叉点以及可见肿块等具有明确临床意义的解剖结构，为配准算法的解剖学准确性提供了可靠的定量评估基础。此外，数据集结构设计严谨，不仅提供了原始的图像数据，还包含了详尽的元数据（如乳房密度、BI-RADS评分）以及标准化的评估协议。其评估子集在视图分布（R-MLO, R-CC, L-MLO, L-CC）上保持平衡，并涵盖了从致密型到脂肪型等多种乳房组织密度，确保了基准测试结果能够全面反映算法在真实临床场景中的鲁棒性。

使用方法

MGRegBench为乳腺影像配准研究提供了一个端到端的标准化评估框架。研究人员可利用其大规模训练集开发和训练基于学习的配准模型（如VoxelMorph、TransMorph）。对于性能评估，则主要依赖于包含专家标注的100对评估集。标准评估流程包括：使用提供的解剖标志点计算相对目标配准误差（rTRE）以量化解剖学对齐精度；利用强度相似性指标（如MSE、SSIM、MI、CC）评估图像层面的匹配度；通过变形场的雅可比行列式负值百分比（NJD）衡量形变的平滑性与物理合理性；并借助提供的乳房分割掩膜计算戴斯相似系数（DSC）来评估组织区域的对齐重叠度。数据集已公开代码与数据获取路径，研究者可遵循其提供的脚本与协议，公平地比较不同配准方法（包括经典方法如ANTs、基于学习的方法及最新的乳腺专用网络MammoRegNet）的性能，从而推动该领域向可复现、可比较的研究范式迈进。

背景与挑战

背景概述

乳腺钼靶图像配准是乳腺癌纵向分析中的关键技术，旨在对齐不同时间点获取的乳腺影像，以追踪病灶演变和监测组织变化。然而，该领域长期缺乏公开、标准化的数据集，导致研究方法难以复现和公平比较。为应对这一挑战，莫斯科国立大学与Third Opinion Platform的研究团队于2025年推出了MGRegBench数据集。该数据集整合了INbreast、KAU-BCMD及RSNA三大公开资源，包含超过5000对图像，其中100对配有专家标注的解剖标志点和乳腺分割掩模，成为当前规模最大、标注最完善的二维乳腺配准基准。MGRegBench的建立为核心研究问题——即开发稳健、准确的跨时间乳腺影像对齐算法——提供了至关重要的评估基础，有望推动计算机辅助诊断与疾病进展监控的研究进程。

当前挑战

MGRegBench致力于解决乳腺钼靶图像配准领域的核心难题：如何在乳腺组织高度可变且缺乏清晰解剖标志的情况下，实现精准的跨时间影像对齐。具体挑战体现在两方面：其一，领域问题的内在复杂性，包括乳腺因压缩、体位和成像协议差异导致的显著形变，以及组织重叠致使可靠标志点稀少，这对配准算法的解剖准确性与鲁棒性提出了极高要求；其二，数据集构建过程中的实际困难，涉及从异构公开数据源中筛选、配对符合时序与投影一致性的图像，并协调多位放射科专家进行耗时且精细的标志点标注，同时还需确保数据在乳腺密度、年龄分布等临床特征上的代表性，以支撑全面而公正的算法评估。

常用场景

经典使用场景

在乳腺影像分析领域，MGRegBench数据集为纵向乳腺X线摄影图像配准研究提供了标准化评估框架。该数据集通过整合来自INbreast、KAU-BCMD和RSNA三大公开数据源的图像对，构建了包含100对专家标注解剖标志点的评估子集，为不同时间点采集的乳腺图像空间对齐提供了基准测试平台。研究者可利用该数据集系统评估各类配准算法在相同投影视图下的性能表现，特别是针对因乳腺压缩、患者体位差异导致的组织形变问题。

解决学术问题

该数据集有效解决了乳腺影像配准领域长期存在的三大核心问题：首先，通过提供公开可访问的标注数据集，打破了以往研究依赖私有数据导致的不可复现性壁垒；其次，标准化评估协议与统一度量指标消除了不同方法间因评估框架差异产生的不可比性；最后，包含术后病例与不同乳腺密度的分层采样设计，使算法评估能够全面反映真实临床场景的复杂性。这种系统化解决方案为领域建立了可量化的技术进步参照系。

衍生相关工作

基于该数据集构建的评估体系已催生多维度方法比较研究，其中Affine+MammoRegNet混合架构展现出最优的综合性能。相关衍生工作深入探讨了传统优化方法与深度学习模型的融合策略，如将ANTs的仿射变换与MammoRegNet的形变配准相结合。同时，研究团队对VoxelMorph、TransMorph等通用医学图像配准网络在乳腺特异性任务上的适应性改造，为领域提供了重要的架构优化方向。这些工作共同推动了乳腺影像配准从方法创新到临床转化的技术链条完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集