five

M-SYNTH

收藏
arXiv2023-10-28 更新2024-06-21 收录
下载链接:
https://github.com/DIDSR/msynth-release/
下载链接
链接失效反馈
官方服务:
资源简介:
M-SYNTH数据集由美国食品药品监督管理局医疗器械与放射健康中心科学工程实验室创建,包含1200个基于知识的模型及其相应的数字乳腺摄影(DM)图像,涵盖不同的物理(乳腺密度、质量大小和密度)和成像(剂量)特性。数据集通过模拟人类解剖学和疾病的随机数字模型,使用数字复制成像采集系统生成。M-SYNTH旨在通过提供多样化的患者和成像条件,支持AI模型在不同物理乳腺属性和成像特性上的比较分析,解决在实际患者数据中难以获取或不安全的多次成像问题。

The M-SYNTH dataset was developed by the Scientific Engineering Laboratory of the Center for Devices and Radiological Health (CDRH) at the U.S. Food and Drug Administration (FDA). It includes 1200 knowledge-based models and their corresponding digital mammography (DM) images, covering a range of physical characteristics such as breast density, mass size and density, as well as imaging parameters including radiation dose. The dataset is generated through a digital replica imaging acquisition system, utilizing stochastic digital models that simulate human anatomy and pathological conditions. The M-SYNTH dataset aims to support comparative analysis of AI models across diverse physical breast properties and imaging characteristics by providing varied patient and imaging scenarios, addressing the challenges of limited accessibility and safety concerns associated with repeated imaging using real-world patient data.
提供机构:
美国食品药品监督管理局医疗器械与放射健康中心科学工程实验室
创建时间:
2023-10-28
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像人工智能评估领域,M-SYNTH数据集的构建采用了基于知识的硅内成像流程。该流程首先利用随机数字人体解剖模型,结合病理特征,通过公开可用的虚拟成像临床试验工具包VICTRE生成乳腺模型。随后,采用蒙特卡洛X射线模拟技术,在不同曝光水平下对四种乳腺纤维腺体密度分布进行成像,最终合成包含1200个数字乳腺模型及其对应数字乳腺X线摄影图像的仿真数据集。这一方法确保了数据在物理变异性和成像条件上的高度可控性与真实性。
使用方法
M-SYNTH数据集的使用方法主要围绕人工智能模型的评估与验证展开。研究者可利用该数据集执行亚组分析任务,通过训练和测试模型来识别特定参数子组下的性能变化。此外,数据集还支持患者数据评估任务,即使用真实患者数据训练的模型在M-SYNTH上进行测试,以揭示模型在目标人群不同亚组中的性能差异。数据以原始格式和DICOM格式提供,并附有肿块位置标注,便于直接应用于模型训练、测试及比较研究。
背景与挑战
背景概述
在医学影像人工智能领域,评估模型在多样化人群中的安全性与有效性面临数据稀缺的严峻挑战。M-SYNTH数据集由美国食品药品监督管理局(FDA)的器械与放射健康中心于2023年发布,旨在通过基于知识的硅内成像管道,生成涵盖不同乳腺密度、病灶显著性与辐射剂量水平的合成数字乳腺X线摄影图像。该数据集依托公开的VICTRE工具包,利用蒙特卡洛X射线模拟技术,构建了包含1200个随机化乳腺模型及其对应影像的队列,核心研究聚焦于乳腺肿块检测任务中AI模型性能的跨亚组比较分析,为医学影像AI的监管评估提供了可控制、可复现的标准化测试平台。
当前挑战
M-SYNTH数据集致力于解决乳腺影像AI模型评估中面临的领域挑战,即如何在缺乏多样化真实患者数据的情况下,系统性地测试模型对不同生理特性(如乳腺密度、肿块大小与密度)与成像参数(如辐射剂量)的鲁棒性。在构建过程中,研究团队需克服多重技术难题:首先,基于物理的模拟成像流程计算成本高昂,生成大规模合成数据需要协调GPU集群资源并优化运行效率;其次,知识模型与成像系统的参数空间设计必须平衡真实性与可控性,确保合成影像既涵盖临床相关变异性,又避免引入与现实脱节的偏差;此外,合成数据与真实患者影像之间的域差异可能影响模型性能评估的泛化效力,需通过统计矩对齐等方法进行验证与校准。
常用场景
经典使用场景
在医学影像人工智能评估领域,M-SYNTH数据集通过基于知识的计算模型与物理模拟成像流程,为乳腺X线摄影AI模型的性能比较提供了经典使用场景。该数据集涵盖了四种乳腺纤维腺体密度分布,在不同曝光水平下通过蒙特卡洛X射线模拟生成合成图像,使得研究者能够系统分析AI模型在多样化乳腺特征、病灶显著性和剂量条件下的表现。其典型应用包括训练和测试乳腺肿块检测算法,评估模型在不同密度乳腺组织中的泛化能力,以及探索辐射剂量对检测性能的影响,为AI模型的稳健性验证提供了可控且可重复的实验环境。
解决学术问题
M-SYNTH数据集有效解决了医学影像AI研究中因患者数据稀缺性和隐私限制导致的评估瓶颈问题。传统患者影像数据集往往无法充分覆盖罕见病例或特定亚群,且缺乏精确的病灶边界标注。该数据集通过基于物理的合成成像管道,生成了包含已知病理位置和形态的乳腺模型,使得研究者能够进行亚组分析和性能比较,探究乳腺密度、肿块大小与密度、辐射剂量等参数对AI模型性能的影响。这一方法不仅避免了临床数据收集的伦理与成本障碍,还为AI模型的安全性评估提供了标准化、可扩展的测试框架,推动了医学影像AI向更可靠、可解释的方向发展。
实际应用
在实际应用中,M-SYNTH数据集为监管机构和医疗设备开发商提供了一种高效、低风险的AI模型评估工具。通过模拟不同乳腺特征和成像条件下的影像,该数据集可用于预临床验证AI辅助诊断系统的性能,特别是在辐射剂量优化和罕见病例模拟方面展现出重要价值。例如,在乳腺筛查场景中,利用该数据集可以测试AI模型在低剂量条件下的检测灵敏度,为临床实践中剂量与诊断准确性的平衡提供依据。此外,该数据集还可用于培训放射科医师的AI辅助工具,增强其对多样化乳腺结构的识别能力,提升早期乳腺癌诊断的精准度与一致性。
数据集最近研究
最新研究方向
在医学影像人工智能领域,M-SYNTH数据集的推出标志着基于物理仿真的合成数据评估范式正成为前沿热点。该数据集通过知识驱动模型与蒙特卡洛X射线模拟,构建了涵盖不同乳腺密度、病灶尺寸与辐射剂量的数字乳腺影像,为AI模型在多样化人群与成像条件下的性能评估提供了可控且可重复的测试平台。当前研究聚焦于利用此类合成数据突破临床数据稀缺性与隐私限制,探索AI在亚组分析中的稳健性,并推动监管科学中虚拟临床试验的发展。这一方向不仅深化了对模型偏差与泛化能力的理解,也为医疗AI设备的安全性与有效性评估开辟了新的方法论路径。
相关研究论文
  • 1
    Knowledge-based in silico models and dataset for the comparative evaluation of mammography AI for a range of breast characteristics, lesion conspicuities and doses美国食品药品监督管理局医疗器械与放射健康中心科学工程实验室 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作