多中心、多设备胎儿生物测量基准数据集

Name: 多中心、多设备胎儿生物测量基准数据集
Creator: 伦敦大学学院计算机科学系和UCL Hawkes研究所
Published: 2025-12-19 21:10:35
License: 暂无描述

arXiv2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/surgical-vision/Multicentre-Fetal-Biometry.git

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由伦敦大学学院等机构联合创建的首个公开多中心、多设备胎儿超声图像基准数据集，包含来自1,904名受试者的4,513张匿名超声图像，覆盖头部、腹部和股骨三个标准解剖平面的生物测量标记。数据采集自三个临床中心，涉及七种不同超声设备，并提供了标准化的训练/测试划分及评估代码。数据集通过专家标注的关键解剖标记点，支持双顶径、枕额径、腹横径、腹前后径和股骨长度等临床常用生物指标的自动化测量研究，旨在解决胎儿生长评估中因设备、操作者和中心差异导致的域偏移问题，为AI辅助跨中心胎儿生长监测提供可靠基准。

This dataset is the first publicly available multi-center, multi-device benchmark dataset of fetal ultrasound images jointly created by University College London and other collaborating institutions. It encompasses 4,513 anonymized ultrasound images sourced from 1,904 subjects, with annotated biometric markers for three standard anatomical planes: the head, abdomen, and femur. The data was collected across three clinical centers utilizing seven different ultrasound devices, and standardized training/testing splits as well as evaluation code are provided. Equipped with expert-annotated key anatomical landmarks, the dataset supports research on automated measurement of clinically routinely used biometric indices including biparietal diameter (BPD), occipitofrontal diameter (OFD), transverse abdominal diameter (TAD), anteroposterior abdominal diameter (APAD), and femur length (FL). This dataset aims to address domain shift issues induced by variations in ultrasound equipment, operators, and clinical centers during fetal growth assessment, serving as a reliable benchmark for AI-assisted cross-center fetal growth monitoring.

提供机构：

伦敦大学学院计算机科学系和UCL Hawkes研究所

创建时间：

2025-12-19

搜集汇总

数据集介绍

构建方式

在胎儿超声生物测量领域，数据集的构建需兼顾临床多样性与标注一致性。本数据集通过整合三个独立来源——FP、HC18与UCL，汇集了来自三个临床中心、七种不同超声设备的4,513张去标识化图像，涵盖1,904名受试者。所有图像均经过专家依据国际妇产超声学会指南进行解剖标志点标注，覆盖头部、腹部与股骨的标准切面，确保每张图像均符合临床诊断质量。数据预处理采用统一的图像中心化裁剪与强度归一化流程，并提供了基于受试者分离的训练与测试划分，以支持无偏评估与可复现研究。

特点

该数据集的核心特点在于其多中心与多设备的采集背景，能够真实反映临床实践中因设备型号、操作者习惯及胎儿姿态所引入的异质性。数据覆盖了胎儿生物测量所需的全部关键指标，包括双顶径、枕额径、腹横径、腹前后径及股骨长度，并提供了标准化的标志点坐标与像素至毫米的转换参数。值得注意的是，数据集通过量化不同中心间的结构位置、尺寸与方向变异性，直观揭示了领域偏移现象，为开发具有强泛化能力的自动化模型提供了关键基准。

使用方法

研究人员可通过公开的数据仓库获取完整的图像与标注文件，并利用附带的训练代码与评估流程进行方法开发与性能比较。数据集支持基于标志点的回归或检测任务，适用于训练端到端的胎儿生物测量模型。在使用时，建议遵循提供的受试者分离划分，以确保评估的公正性；同时，可利用多中心联合训练策略来提升模型在不同采集条件下的泛化性能。数据集的标注格式统一为CSV文件，包含图像名称、标志点坐标及尺度信息，便于直接集成至主流深度学习框架中进行训练与验证。

背景与挑战

背景概述

胎儿生长评估依赖于超声影像中标准平面上解剖标志点的手动识别与生物测量，这一过程耗时且易受操作者及设备差异影响，限制了自动化方法的可重复性。为应对这一瓶颈，由伦敦大学学院、特拉维夫医疗中心及耶路撒冷希伯来大学等机构的研究团队于2025年联合构建了首个公开的多中心多设备胎儿生物测量基准数据集。该数据集整合了来自三个临床中心、七种不同超声设备的4,513幅图像，涵盖头围、腹围及股骨长度等关键生物测量指标，并提供了专家标注的解剖标志点。其核心在于通过捕获真实的临床变异，为开发能够跨中心泛化的人工智能辅助胎儿生长评估方法奠定数据基础，推动了该领域从单中心模型向临床可部署系统的演进。

当前挑战

该数据集旨在解决胎儿超声生物测量自动化中的领域泛化挑战。具体而言，其面临的挑战包括：第一，领域偏移问题，即不同超声设备、采集协议及操作习惯引入的图像特征差异，导致在单一中心数据上训练的模型在其他中心性能显著下降；第二，标注一致性问题，整合多源数据时需统一不同数据集在标志点顺序、测量定义及标注方法（如手动标点与椭圆拟合派生）上的差异，以确保监督信号的一致性；第三，数据异质性管理，数据集中胎儿姿态、图像缩放比例及结构朝向的临床真实变异，对模型在未见过的采集条件下保持鲁棒性提出了更高要求。

常用场景

经典使用场景

在胎儿超声生物测量领域，多中心多设备胎儿生物测量基准数据集为开发自动化测量算法提供了关键验证平台。该数据集最经典的应用场景是作为基准测试集，用于评估深度学习模型在跨中心、跨设备条件下的泛化能力。研究者利用其标准化的训练-测试划分和专家标注的解剖标志点，系统量化模型在单一中心训练后部署到其他医疗机构的性能衰减，从而揭示超声图像采集中的域偏移现象。

衍生相关工作

围绕该数据集已衍生出多项重要的算法研究工作。BiometryNet框架利用其标志点标注实现了端到端的胎儿生物测量估计，并引入动态方向确定机制处理不同数据集的标注惯例差异。后续研究在此基础上探索了多任务学习、时空视频分析及贝叶斯帧聚合等先进方法，显著提升了跨域泛化性能。这些工作共同推动了胎儿超声分析从单中心验证向多中心临床部署的范式转变，为人工智能辅助产前诊断建立了可复现的评估体系。

数据集最近研究