five

OpenBreastUS

收藏
arXiv2025-07-21 更新2025-08-14 收录
下载链接:
https://huggingface.co/datasets/OpenBreastUS/breast
下载链接
链接失效反馈
官方服务:
资源简介:
OpenBreastUS是一个大型波方程数据集,旨在弥合理论方程与实际成像应用之间的差距。它包含8000个解剖学上逼真的人体乳房模型和超过1600万个使用真实USCT配置的频域波模拟。它使对流行的神经算子的全面基准测试成为可能,用于正向模拟和逆成像任务,并允许分析其性能、可扩展性和泛化能力。OpenBreastUS不仅为开发创新的神经PDE求解器提供了一个平台,还促进了它们在解决现实世界医疗成像问题中的应用。

OpenBreastUS is a large-scale wave equation dataset designed to bridge the gap between theoretical equations and practical imaging applications. It contains 8000 anatomically realistic human breast models and over 16 million frequency-domain wave simulations conducted with a real-world USCT configuration. It enables comprehensive benchmarking of popular neural operators for forward simulation and inverse imaging tasks, and allows analysis of their performance, scalability and generalization capabilities. OpenBreastUS not only provides a platform for developing innovative neural PDE solvers, but also facilitates their application in solving real-world medical imaging problems.
提供机构:
清华大学, 北京大学, 阿卜杜拉国王科技大学, 中国科学院声学研究所, 清华大学丘成桐数学科学中心, DP Technology, 北京大学未来技术学院, 北京大学生物医学影像研究中心
创建时间:
2025-07-21
搜集汇总
数据集介绍
main_image_url
构建方式
OpenBreastUS数据集的构建过程分为两个关键步骤:首先,利用美国食品药品监督管理局(FDA)VICTRE项目开发的医学仿真工具生成8,000个解剖学精确的乳腺体模,涵盖异质性(HET)、纤维腺体(FIB)、全脂肪(FAT)和极高密度(EXD)四种密度类型,并通过随机缩放和声速扰动增强生物力学真实性。其次,基于真实环形USCT系统参数(256个换能器、300-650kHz频段),采用收敛玻恩级数(CBS)算法求解异质亥姆霍兹方程,生成超过1,600万组频域波场模拟数据,网格分辨率达480×480,空间步长0.5mm,严格遵循临床超声波长(1-5mm)与组织结构的物理交互规律。
特点
该数据集的核心价值在于其临床导向的多维度复杂性:①解剖真实性方面,乳腺体模通过组织分割和声速映射还原了皮肤、脂肪、腺体等结构的生物力学特性;②物理完备性上,完整保留了换能器空间坐标、多频激励(8频点)和全波场数据(含透射/反射场);③计算挑战性表现为每个样本包含50-100个波数的强散射环境,远超现有PDEBench等简化数据集。特别地,其16.4TB数据量支持同时训练正向波传播算子(ω,c(x)→u(x))和逆向成像网络(Y→c(x)),为医学超声断层扫描建立了首个兼顾算法开发与临床验证的基准平台。
使用方法
使用该数据集需遵循双轨评估框架:正向任务中,以RRMSE和最大误差指标测试神经算子对亥姆霍兹方程解的逼近能力,推荐采用多网格神经算子(MgNO)处理高频散射;逆向任务则通过PSNR和SSIM评估全波形反演质量,梯度优化结合BFNO前向替代的方案在实验中展现最优分辨率。数据已按4:1划分训练/测试集,支持跨密度类型的迁移学习验证。值得注意的是,临床部署时需将模拟换能器坐标与实际设备对齐,并利用混合专家(MoE)框架整合不同频段的专用算子网络,以应对活体组织中复杂的频变散射效应。
背景与挑战
背景概述
OpenBreastUS是一个专注于超声计算机断层扫描(USCT)领域的大规模数据集,由清华大学、北京大学等机构的研究团队于2025年创建。该数据集旨在解决传统波动方程数值求解器在计算效率和数值稳定性方面的不足,特别是在实时医学成像应用中的瓶颈问题。OpenBreastUS包含8,000个解剖学上真实的人体乳腺模型和超过1,600万次频域波动模拟,为神经算子(neural operators)在波动成像中的性能评估提供了全面基准。该数据集不仅推动了神经PDE求解器的发展,还促进了其在真实医学成像问题中的应用,首次实现了基于神经算子的人体乳腺高效体内成像。
当前挑战
OpenBreastUS面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,该数据集旨在解决高波数波动方程求解的困难,包括快速振荡波场的精确解析、大型复杂值线性系统的处理以及数值不稳定性问题。在构建过程中,挑战包括生成解剖学上真实的乳腺模型、模拟复杂的散射效应、处理大规模数据(总存储量达28.8TB)以及确保模拟参数与真实USCT系统的一致性。此外,数据集还需克服现有PDE数据集中过度简化场景的问题,以提供更贴近真实医学成像的复杂环境。
常用场景
经典使用场景
OpenBreastUS数据集在医学影像领域具有广泛的应用,特别是在超声计算机断层扫描(USCT)中。该数据集通过提供大量基于真实USCT系统的频域波模拟,为研究人员提供了一个可靠的平台,用于开发和评估神经算子模型。其经典使用场景包括波场模拟和逆成像任务,能够全面评估神经算子在复杂波成像问题中的性能和泛化能力。
实际应用
OpenBreastUS数据集的实际应用主要集中在医学影像领域,特别是在乳腺癌的早期诊断和治疗监测中。通过结合神经算子模型,该数据集能够显著提高超声计算机断层扫描(USCT)的图像重建速度和精度。此外,其解剖学真实的乳腺模型也为虚拟成像试验提供了可靠的数据基础,有助于优化临床影像设备的性能。
衍生相关工作
OpenBreastUS数据集衍生了一系列经典工作,包括基于神经算子的波场模拟和逆成像方法。例如,Fourier Neural Operator (FNO)、Born FNO (BFNO)和Multigrid Neural Operator (MgNO)等模型在该数据集上进行了广泛测试和优化。这些工作不仅推动了神经算子在波成像领域的发展,还为其他医学影像任务提供了新的研究思路和技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作