five

Cancer-Net BCa|乳腺癌研究数据集|机器学习数据集

收藏
arXiv2023-04-12 更新2024-06-21 收录
乳腺癌研究
机器学习
下载链接:
https://www.kaggle.com/datasets/amytai/cancernet-bca
下载链接
链接失效反馈
资源简介:
Cancer-Net BCa是由滑铁卢大学视觉与图像处理实验室创建的多机构开放源基准数据集,专注于乳腺癌临床决策支持。该数据集包含253名乳腺癌患者的合成相关扩散成像(CDIs)体积图像,涵盖了详细的注释元数据,如病变类型、遗传亚型等。数据集通过美国放射学院成像网络(ACRIN)6698/I-SPY2研究收集,采用特定的四b值成像协议。Cancer-Net BCa旨在通过机器学习加速癌症治疗领域的进步,特别是在乳腺癌的诊断、预后/分级和治疗规划方面。
提供机构:
滑铁卢大学视觉与图像处理实验室
创建时间:
2023-04-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
Cancer-Net BCa数据集的构建基于多机构合作,通过美国放射学会影像网络(ACRIN)6698/I-SPY2研究,收集了253名乳腺癌患者在治疗前的合成相关扩散成像(CDIs)数据。这些数据来自10个机构,使用四b值成像协议(0 s/mm², 100 s/mm², 600 s/mm², 800 s/mm², 3-方向)在1.5或3.0特斯拉扫描仪上获取,像素间距范围为0.83 mm至2.08 mm,中位数为1.29 mm,切片厚度和切片间距范围为4.0至5.0 mm,中位数为4.0 mm。通过信号合成器混合原生和合成信号,最终生成CDIs信号。
特点
Cancer-Net BCa数据集的显著特点在于其多机构、多维度的数据来源和丰富的注释信息。该数据集不仅包含了患者的CDIs体积图像,还详细记录了病变类型、遗传亚型、MRI上的最长直径(MRLD)、Scarff-Bloom-Richardson(SBR)分级以及新辅助化疗后的病理完全缓解(pCR)状态。此外,数据集还分析了患者的人口统计和肿瘤多样性,揭示了潜在的偏差,如种族分布中白人占主导,年龄分布集中在30至70岁之间。
使用方法
Cancer-Net BCa数据集主要用于支持乳腺癌临床决策的计算机辅助诊断、预后分级、治疗规划等研究。研究人员可以利用该数据集进行机器学习模型的训练和验证,特别是针对CDIs图像的分析。由于数据集存在一定的偏差,建议在使用时采用数据采样、类别平衡和平衡损失函数等策略来处理不平衡问题。此外,评估基于此数据集开发的系统时,应考虑使用平衡的评估指标,如每个类别的精确度和召回率。
背景与挑战
背景概述
近年来,合成相关扩散成像(CDIs)作为一种新型磁共振成像(MRI)技术,在前列腺癌的临床决策支持中显示出显著优势。然而,其在乳腺癌中的应用尚未得到充分探索,且相关数据尚未公开。为推动基于CDIs的乳腺癌计算机辅助临床决策支持系统的发展,Waterloo大学的Vision and Image Processing Lab团队创建了Cancer-Net BCa数据集。该数据集包含来自10个机构的253名乳腺癌患者的CDIs体积图像,并附有详细的注释元数据,如病变类型、遗传亚型、MRI上的最长直径(MRLD)、Scarff-Bloom-Richardson(SBR)分级以及新辅助化疗后的病理完全缓解(pCR)状态。Cancer-Net BCa数据集的公开发布旨在加速机器学习在癌症临床决策支持中的应用,为全球抗击癌症贡献力量。
当前挑战
尽管Cancer-Net BCa数据集在推动乳腺癌临床决策支持方面具有重要意义,但其构建过程中仍面临诸多挑战。首先,数据集在种族和年龄分布上存在显著偏差,白人患者占比高达70.8%,而年轻和老年患者代表性不足。其次,遗传亚型和病变类型的分布不均,特别是SBR分级和pCR状态的分布严重不平衡,这可能导致模型训练中的偏差。此外,数据集的构建涉及多机构合作,确保数据质量和一致性是一个复杂的过程。为应对这些挑战,研究者建议采用数据采样、类别重平衡和平衡损失函数等策略,以提高模型的泛化能力和公平性。
常用场景
经典使用场景
Cancer-Net BCa数据集的经典使用场景主要集中在乳腺癌的临床决策支持系统中。通过提供多机构、多维度的合成相关扩散成像(CDIs)数据,该数据集支持研究人员开发和验证基于机器学习的诊断、预后评估、治疗规划等算法。这些算法能够帮助临床医生更准确地预测乳腺癌患者对新辅助化疗的反应,从而优化治疗方案。
衍生相关工作
Cancer-Net BCa数据集的发布催生了一系列相关研究工作。例如,基于该数据集的深度学习模型被开发用于预测乳腺癌的病理完全缓解状态,显著提高了预测的准确性。此外,研究人员还利用该数据集探索了不同种族和年龄群体在乳腺癌诊断和治疗中的差异,为解决数据偏见问题提供了新的视角。这些研究不仅推动了乳腺癌临床决策支持系统的发展,还为其他癌症类型的研究提供了借鉴。
数据集最近研究
最新研究方向
近年来,合成相关扩散成像(CDIs)作为一种新型磁共振成像(MRI)技术,在前列腺癌的临床决策支持中显示出显著优势。然而,其在乳腺癌中的应用尚未得到充分探索,且相关数据此前未公开。Cancer-Net BCa数据集的引入填补了这一空白,该数据集包含了来自十个机构的253名乳腺癌患者的CDIs体积图像,并附有详细的注释元数据,如病变类型、遗传亚型、MRI上的最长直径(MRLD)、Scarff-Bloom-Richardson(SBR)分级以及新辅助化疗后的病理完全缓解(pCR)状态。这一数据集的公开为乳腺癌的计算机辅助临床决策支持系统的开发提供了宝贵的资源,特别是在诊断、预后分级和治疗规划等领域。此外,数据集的多样性和潜在偏差分析也为未来的研究提供了重要的参考,特别是在处理数据不平衡和开发适应性算法方面。
相关研究论文
  • 1
    A Multi-Institutional Open-Source Benchmark Dataset for Breast Cancer Clinical Decision Support using Synthetic Correlated Diffusion Imaging Data滑铁卢大学视觉与图像处理实验室 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集