T-SYNTH
收藏arXiv2025-07-05 更新2025-07-09 收录
下载链接:
https://github.com/DIDSR/tsynth-release
下载链接
链接失效反馈官方服务:
资源简介:
T-SYNTH是一个基于知识的大规模开源数据集,包含成对的2D数字乳腺摄影(DM)和3D数字乳腺断层摄影(DBT)图像。该数据集使用物理模拟技术生成合成图像,并带有像素级分割注释。数据集包含9,000张图像,包括4,500张有病变的图像和4,500张无病变的图像。数据集可用于加速医疗影像领域人工智能的发展,特别是在乳腺影像分析中,如病变检测和分割。
T-SYNTH is a large-scale open-source knowledge-based dataset containing paired 2D digital mammography (DM) and 3D digital breast tomosynthesis (DBT) images. Synthetic images of this dataset are generated via physical simulation techniques, and it is accompanied by pixel-level segmentation annotations. The dataset consists of 9,000 images in total, including 4,500 lesion-containing images and 4,500 lesion-free images. It can be used to accelerate the development of artificial intelligence in the medical imaging field, especially for breast imaging analysis tasks such as lesion detection and segmentation.
提供机构:
美国食品药品监督管理局科学与工程实验室设备与放射卫生中心
创建时间:
2025-07-05
原始信息汇总
T-SYNTH: 基于知识的合成乳腺图像数据集
数据集概述
- 名称: T-SYNTH
- 类型: 合成乳腺图像数据集
- 内容: 包含配对的DM(2D成像)和DBT(3D成像)图像,源自基于知识的模型
- 标注信息: 提供像素级分割和多种乳腺组织的边界框
数据集特点
- 应用场景: 用于亚组分析,特别是在乳腺病变检测任务中
- 实验验证:
- 使用Faster-RCNN在平衡数据集上进行训练和评估
- 结果显示在DM和DBT(C-View)中不同亚组的性能趋势(如密度较低的病变更难检测)
- 在有限的患者数据上训练检测模型,并证明通过T-SYNTH增强训练数据可以提高性能
相关资源
- Huggingface数据仓库: https://huggingface.co/datasets/didsr/tsynth
- 论文链接: https://arxiv.org/abs/2507.04038
搜集汇总
数据集介绍

构建方式
T-SYNTH数据集通过基于知识的物理模拟方法构建,利用开源虚拟成像临床试验(VICTRE)管道模拟数字乳腺X线摄影(DM)和数字乳腺断层合成(DBT)图像。该过程包括生成具有不同乳腺密度、病变密度和病变大小的乳腺模型,并通过计算模型模拟病变生长过程,最终生成包含像素级分割注释和边界框的合成图像。数据集共包含9000张图像,其中4500张为病变存在样本,4500张为病变不存在样本。
使用方法
T-SYNTH数据集可用于训练和评估乳腺图像分析算法,特别是在数据稀缺或标注不足的情况下。用户可以通过公开的GitHub仓库和Hugging Face平台获取数据集和预训练模型。数据集支持多种应用场景,包括病变检测、分割任务以及通过合成数据增强真实患者数据的训练效果。使用时需遵循CC0-1.0许可协议,确保引用原始工作。
背景与挑战
背景概述
T-SYNTH是由美国食品药品监督管理局(FDA)的Christopher Wiedeman等研究人员于2025年提出的一个基于知识模型的大规模开源合成乳腺图像数据集。该数据集包含配对的2D数字乳腺X线摄影(DM)和3D数字乳腺断层合成(DBT)图像,旨在解决医学影像算法开发中大规模标注数据获取困难的问题。乳腺癌作为全球女性最常见的恶性肿瘤之一,其早期筛查和诊断高度依赖医学影像技术,而传统真实患者数据的获取受限于成本、隐私法规及专业标注的高昂代价。T-SYNTH通过物理模拟生成具有像素级分割标注的合成图像,为乳腺病变检测、组织分割等AI任务提供了可控且平衡的数据支持,其创新性体现在将生物力学模型与影像系统模拟相结合,填补了现有公开数据集中三维影像和精细标注的空白。
当前挑战
T-SYNTH面临的挑战主要体现在两方面:领域问题层面,乳腺影像中密集腺体组织对微小病变的遮蔽效应、不同密度亚组间的检测性能差异,以及DBT三维数据中伪影干扰等问题,要求合成数据必须精准模拟生物组织的物理特性;构建过程层面,需克服商业影像重建算法保密导致的域差异、血管化肿瘤生长模型的生物学合理性验证,以及平衡合成数据与真实患者数据分布一致性等难题。此外,现有版本尚未涵盖钙化灶等非肿块型病变的模拟,且缺乏与临床BIRADS分级标准的对接,这些局限性为后续迭代提出了明确改进方向。
常用场景
经典使用场景
在医学影像分析领域,T-SYNTH数据集通过提供大规模配对的2D数字乳腺X线摄影(DM)和3D数字乳腺断层合成(DBT)图像,为乳腺癌检测算法的开发和评估提供了重要支持。该数据集特别适用于训练和验证深度学习模型在乳腺病变检测和分割任务中的性能,尤其是在真实患者数据稀缺的情况下。通过物理模拟生成的合成图像不仅包含像素级分割注释,还能模拟不同乳腺密度、病变大小和密度的变化,为算法在多样化临床场景中的鲁棒性评估提供了理想平台。
解决学术问题
T-SYNTH数据集有效解决了医学影像分析中数据稀缺和注释获取困难的核心问题。传统乳腺影像数据集受限于患者隐私、标注成本高昂以及数据分布不均衡等挑战,而T-SYNTH通过知识驱动的物理模拟生成合成数据,提供了精确的病变边界框和像素级组织分割标签。这使得研究者能够系统探究算法在不同乳腺密度亚组(如脂肪型与致密型乳腺)中的性能差异,同时避免了真实数据中常见的偏见问题,为计算机辅助诊断(CAD)系统的可解释性研究奠定了基础。
实际应用
该数据集的实际价值体现在临床工作流程的优化中。医疗机构可利用T-SYNTH生成的合成影像扩充有限的患者数据集,显著提升深度学习模型在早期乳腺癌筛查中的泛化能力。例如,在数字乳腺断层合成(DBT)影像分析中,通过结合合成数据训练的模型能更准确地识别致密乳腺组织中的微小病变,减少假阳性率。此外,数据集支持对成像设备参数的虚拟测试,为新型乳腺摄影系统的性能评估提供安全且经济的解决方案。
数据集最近研究
最新研究方向
近年来,T-SYNTH数据集在医学影像分析领域引起了广泛关注,特别是在乳腺癌筛查和诊断算法的开发中。该数据集通过物理模拟生成合成乳腺图像,解决了真实患者数据获取困难的问题,同时提供了像素级的分割注释,这对于训练和评估深度学习模型至关重要。当前的研究方向主要集中在利用T-SYNTH数据集进行亚组分析,探索不同乳腺密度、病变大小和密度对检测性能的影响。此外,该数据集还被用于增强有限的患者数据,以提高病变检测模型的性能。T-SYNTH的开放性和多样性为医学影像AI研究提供了新的可能性,特别是在处理数据不平衡和 underrepresented subgroups 方面展现了巨大潜力。
相关研究论文
- 1T-SYNTH: A Knowledge-Based Dataset of Synthetic Breast Images美国食品药品监督管理局科学与工程实验室设备与放射卫生中心 · 2025年
以上内容由遇见数据集搜集并总结生成



