CSAW-M
收藏arXiv2021-12-02 更新2024-06-21 收录
下载链接:
https://doi.org/10.17044/scilifelab.14687271
下载链接
链接失效反馈官方服务:
资源简介:
CSAW-M是由瑞典皇家理工学院和SciLifeLab创建的公开乳腺X光摄影数据集,包含超过10,000个来自不同个体的乳腺X光图像,每个图像都由五位专家标注了潜在的肿瘤遮蔽情况。数据集旨在通过序数分类设置训练模型,以预测乳腺X光图像中的肿瘤遮蔽潜力。CSAW-M不仅包括专家的遮蔽潜力评估,还包含客观临床终点数据,如筛查参与者是否发展为间隔或大型侵袭性癌症。此数据集是迄今为止最大的公开乳腺X光集合,可用于其他任务,如无监督学习,有助于解决全球专家短缺问题。
CSAW-M is a public mammography dataset developed by the Royal Institute of Technology (KTH) of Sweden and SciLifeLab. It contains over 10,000 mammographic images from unique individuals, with each image annotated by five experts regarding potential tumor obscuration. The dataset is designed to train models under an ordinal classification setting to predict the tumor obscuration potential in mammographic images. In addition to experts' assessments of obscuration potential, CSAW-M also includes objective clinical endpoint data, such as whether screening participants developed interval or large aggressive cancers. As the largest public mammography collection to date, this dataset can be applied to other tasks including unsupervised learning, helping to address the global shortage of medical experts.
提供机构:
瑞典皇家理工学院
创建时间:
2021-12-02
搜集汇总
数据集介绍

构建方式
CSAW-M数据集的构建采用了专家评估的方法,从超过10,000个个体中收集了乳腺X光图像,并标注了潜在的遮蔽情况。该数据集由来自斯德哥尔摩地区的五个专家进行评估,他们根据八个遮蔽潜力的等级对图像进行了标注。图像选择过程从CSAW队列中筛选参与者,并选择最近的中侧斜位(MLO)视图。如果参与者患有癌症,则选择对侧乳房(未患癌症的乳房)的图像。图像预处理包括将DICOM格式的源图像缩放到632×512像素,并将其保存为16位PNG格式。使用DICOM元数据进行水平翻转,使所有乳房都指向左侧,并重新缩放强度到适当的DICOM窗口范围。图像中的文本(包括技术人员姓名缩写、乳房侧别和视图位置)被去除。
特点
CSAW-M数据集的独特之处在于:1.它是第一个使用专家评估直接解决乳腺X光图像遮蔽潜力的数据集。2.除了五个专家的遮蔽潜力评估外,CSAW-M还包括客观的临床终点数据,即关于筛查参与者是否发展为间隔性或大侵袭性癌症的数据。3.CSAW-M是最大的公开乳腺X光图像集合,包含来自超过10,000个筛查参与者的数字乳腺X光图像,可用于其他任务。4.CSAW-M附带了一个公开测试集,供研究人员进行基准测试。此外,我们还定义了一个不公开的测试集。SciLifeLab托管了一个评估服务,允许研究人员提交包含其模型的Dockers,在私有测试集上进行评估,以防止对公开测试集过度拟合。
使用方法
CSAW-M数据集可用于训练能够从乳腺X光图像中预测遮蔽潜力的模型。数据集分为训练集、公开测试集和私有测试集。研究人员可以使用训练集来训练模型,并使用公开测试集来评估模型性能。私有测试集可供SciLifeLab托管的服务使用,以在控制过度拟合的情况下评估模型。数据集的元数据包括通过标注过程收集的遮蔽潜力标签、临床终点(如癌症、间隔性和大侵袭性)、图像采集参数和密度参数(如百分比密度和致密区域)。数据集的图像以8位PNG格式提供,分辨率为632×512像素。
背景与挑战
背景概述
在乳腺癌筛查中,部分癌症由于周围乳腺组织的遮挡而难以被传统乳腺X光片检测到,这种现象被称为遮挡。为了研究并评估乳腺X光片中的癌症遮挡,研究人员Moein Sorkhei等人于2021年创建了CSAW-M数据集。该数据集收集自超过10,000名个体,并由五名专家进行了潜在的遮挡标注。CSAW-M数据集是迄今为止最大的公共乳腺X光片数据集,为乳腺X光片遮挡的自动化评估提供了重要的资源。该数据集的核心研究问题是如何量化乳腺X光片中的遮挡程度,以及如何利用这些信息来预测和识别高风险的筛查参与者。
当前挑战
CSAW-M数据集面临的挑战主要包括:1) 遮挡程度的量化:尽管乳腺密度与遮挡程度相关,但两者并不完全一致。目前,如何精确量化遮挡程度仍是一个开放的问题。2) 专家评估的一致性:由于遮挡评估是主观的,不同专家之间的评估可能存在差异。如何提高评估的一致性和准确性是一个挑战。3) 模型的性能:尽管CSAW-M数据集为遮挡评估提供了丰富的数据,但现有的模型在识别高风险遮挡的乳腺X光片时仍存在困难。提高模型的性能,特别是在识别高风险遮挡的乳腺X光片方面,是一个重要的挑战。4) 数据集的代表性:CSAW-M数据集是从CSAW人口队列中筛选出来的,可能存在一定的偏差。如何确保数据集的代表性,以及如何处理数据集中的偏差,是一个需要考虑的问题。
常用场景
经典使用场景
CSAW-M数据集主要用于乳腺X光片中的癌症掩蔽现象研究。该数据集通过专家评估,对乳腺X光片中的掩蔽潜力进行了标注,并提供了8个级别的掩蔽潜力评估。研究人员可以利用这个数据集来训练深度学习模型,从而预测乳腺X光片中的掩蔽潜力,并识别出需要额外放射学检查的筛查参与者。
解决学术问题
CSAW-M数据集解决了乳腺X光片中的癌症掩蔽现象研究问题。该数据集通过专家评估,对乳腺X光片中的掩蔽潜力进行了标注,并提供了8个级别的掩蔽潜力评估。研究人员可以利用这个数据集来训练深度学习模型,从而预测乳腺X光片中的掩蔽潜力,并识别出需要额外放射学检查的筛查参与者。这对于提高乳腺X光筛查的准确性和早期发现乳腺癌具有重要意义。
衍生相关工作
CSAW-M数据集的衍生相关工作包括乳腺X光筛查中的癌症掩蔽现象研究。研究人员可以利用这个数据集来训练深度学习模型,从而预测乳腺X光片中的掩蔽潜力,并识别出需要额外放射学检查的筛查参与者。这对于提高乳腺X光筛查的准确性和早期发现乳腺癌具有重要意义。此外,CSAW-M数据集还可以用于开发新的放射学检查技术,例如MRI,以更好地检测乳腺X光片中的掩蔽癌症。此外,CSAW-M数据集还可以用于开发新的放射学检查技术,例如MRI,以更好地检测乳腺X光片中的掩蔽癌症。
以上内容由遇见数据集搜集并总结生成



