BRACS
收藏arXiv2021-11-08 更新2024-06-21 收录
下载链接:
https://bracs.icar.cnr.it
下载链接
链接失效反馈官方服务:
资源简介:
BRACS数据集是由意大利国家研究委员会高性能计算与网络研究所和IBM苏黎世研究实验室合作创建的,专注于乳腺癌亚型分类。该数据集包含547个全玻片图像(WSIs)和4539个感兴趣区域(RoIs),涵盖了良性、恶性和非典型三种病变类型,以及多种亚型。数据集的创建过程涉及多位认证病理学家的共识标注,确保了数据的高质量和准确性。BRACS数据集的应用领域主要集中在通过人工智能技术辅助病理诊断,提高乳腺癌诊断的准确性和效率。
The BRACS dataset was developed in collaboration between the Institute of High Performance Computing and Networking of the Italian National Research Council and IBM Research Zurich, focusing on breast cancer subtyping. This dataset includes 547 whole-slide images (WSIs) and 4,539 regions of interest (RoIs), covering three major lesion types: benign, malignant, and atypical, as well as multiple subtypes. The dataset's development involved consensus annotation from multiple certified pathologists, ensuring the high quality and accuracy of the data. The main application areas of the BRACS dataset focus on assisting pathological diagnosis via artificial intelligence technologies to improve the accuracy and efficiency of breast cancer diagnosis.
提供机构:
意大利国家研究委员会高性能计算与网络研究所
创建时间:
2021-11-08
搜集汇总
数据集介绍

构建方式
BRACS数据集的构建是基于对乳腺癌组织切片进行数字化扫描,并由三名具有执业资格的病理学家对547张全切片图像(WSIs)和从这些WSIs中提取的4539个感兴趣区域(RoIs)进行注释。这些切片图像来源于189名患者的乳腺癌组织活检,切片的扫描使用Aperio AT2扫描仪,放大倍数为40×,分辨率为0.25 µm/像素。RoIs的标注包括正常组织、病理良性、通常导管增生、平坦上皮非典型增生、非典型导管增生、原位导管癌和浸润性癌等七个类别。为了确保标注的一致性,三位病理学家独立地对RoIs进行标注,并对标注不一致的部分进行讨论和重新标注,最终达成共识。
特点
BRACS数据集的特点在于其多样性和全面性。首先,它包含了大量的H&E染色图像,这些图像在WSI和RoI级别上都有标注,为乳腺癌病变的特征分析提供了丰富的数据。其次,RoIs在尺寸上具有较大的变异性,并且包含了常见的组织准备和染色伪影,这使数据集更加接近现实世界的乳腺癌诊断。此外,BRACS数据集还包含了通常被忽视的非典型病变,如非典型导管增生和平坦上皮非典型增生,这为利用人工智能更好地理解这些病变提供了独特的机遇。
使用方法
BRACS数据集的使用方法相对简单。用户可以在BRACS网站上注册并同意使用条款后免费下载数据集。数据集的组织结构清晰,WSIs和RoIs分别存储在不同的文件夹中,并且每个文件夹都按照病变类型和亚型进一步划分。用户可以通过QuPath软件查看WSI中的RoIs标注。此外,数据集还提供了预先定义的训练、验证和测试集分割,以促进模型的评估和验证。
背景与挑战
背景概述
乳腺癌是女性癌症患者中最常见且死亡率最高的癌症类型。随着诊断技术的进步和大规模筛查政策的实施,乳腺癌患者的死亡率已显著降低。然而,病理学家对组织切片的手动检查既繁琐又耗时,且存在显著的观察者间和观察者内的变异性。近年来,全切片扫描系统的出现使得病理切片的快速数字化成为可能,并推动了数字工作流程的开发。这些进步进一步使得人工智能(AI)得以协助、自动化和增强病理诊断。但是,AI技术,尤其是深度学习(DL),需要大量高质量标注数据来学习。构建此类特定任务的数据库面临着诸多挑战,如数据采集水平的限制、耗时且昂贵的标注以及患者信息的匿名化等。本文介绍的BRACS数据集是一个大型标注的苏木精-伊红(H&E)染色图像队列,旨在推进乳腺癌病变的特征化。BRACS包含547个全切片图像(WSIs)和从WSIs中提取的4539个感兴趣区域(RoIs)。每个WSI及其相应的RoIs都由三位资深病理学家的共识标注为不同的病变类别。具体来说,BRACS包括三种病变类型,即良性、恶性和非典型性,这些类型进一步细分为七个类别。所包含的RoIs在尺寸上具有很大的变异性,并包含了通常的组织准备和染色伪影,以提供最真实的乳腺癌诊断。据我们所知,BRACS是在WSI和RoI级别上最大的乳腺癌分型标注数据集。此外,通过包括研究不足的非典型性病变,BRACS为利用AI更好地理解其特征提供了独特的机会。我们鼓励AI从业者使用BRACS数据集开发和评估新的算法,以进一步推进乳腺癌诊断和患者护理。
当前挑战
BRACS数据集面临的挑战包括:(1)需要大量标注数据集以训练深度学习模型;(2)需要足够多样的数据以设置跨患者实验;(3)需要包括诊断上具有挑战性的病变,这些病变通常难以且昂贵地获取;(4)需要利用子区域标注来界定RoI;(5)需要涵盖诊断范围;(6)需要处理数据泄漏和噪声标注。尽管深度学习在计算机辅助诊断(CAD)中显示出比传统机器学习方法更优越的能力,但其优越性需要以获取大量、高质量、多样且无偏见的标注训练数据集为代价。虽然已存在一些用于诊断乳腺癌组织学图像的数据集,但它们并不完全符合上述所有标准。例如,一些数据集专注于仅包含二元类的特定疾病,而其他处理多个类别的数据集则仅包含少量训练样本。此外,数据集中考虑的类别集至关重要。大多数公开数据集旨在将病变分类为良性和恶性类别,这些类别并不描绘乳腺癌诊断的完整类别谱。许多这些数据集包含没有临床伪影的标准图像,例如染色异常、墨水标记、组织折叠、模糊区域和撕裂等。因此,这些数据集并不能全面代表现实世界的乳腺癌诊断。因此,有必要开发一个乳腺癌数据集,其中包含横跨诊断谱的异构图像,这与病理学家进行的现实世界诊断相当。为此,我们引入了BRACS,一个大型H&E染色图像队列,以推进乳腺癌病变的CAD。BRACS具有以下优点:(1)它包括大量和异构的现实乳腺癌组织学图像(在WSI和RoI级别上);(2)RoIs在尺寸上具有变异性,通过完全包含诊断病变,从而避免丢失诊断相关信息;(3)图像是从大量患者中获取的,涵盖了很大的变异性;(4)除了其他类别外,还包括两种非典型性病变类别,也称为癌前病变。特别是,我们考虑以下病变类型:正常(N)、病理性良性(PB)、常规导管增生(UDH)、平坦上皮非典型性(FEA)、非典型性导管增生(ADH)、导管原位癌(DCIS)和浸润性癌(IC)。因此,BRACS通过包括多种典型和非典型组织样本,以及来自大量患者的WSIs和RoIs,代表了更真实的乳腺癌诊断基准。
常用场景
经典使用场景
BRACS数据集在乳腺组织病理学图像分析中的应用,特别是乳腺癌分型的自动诊断和辅助决策,已成为该领域的重要研究工具。通过深度学习技术,研究人员可以利用BRACS数据集进行模型训练,以识别和分类乳腺组织的不同病变类型,包括良性、恶性和非典型病变。这些分类结果对于病理学家在乳腺癌的早期诊断和治疗中具有重要的参考价值。
解决学术问题
BRACS数据集解决了乳腺组织病理学图像分析中存在的几个关键学术研究问题。首先,它提供了大量高质量的标注数据,这对于深度学习模型的训练至关重要。其次,BRACS数据集包含了不同病变类型的样本,包括良性和恶性病变,以及非典型病变,这有助于模型更好地理解乳腺病变的复杂性和多样性。此外,BRACS数据集还包含了组织切片的染色和制备过程中的常见伪影,这使得模型能够在更接近真实临床环境的情况下进行学习和评估。
衍生相关工作
BRACS数据集的发布衍生了许多相关的研究工作,包括但不限于:1. 基于BRACS数据集的深度学习模型开发,用于乳腺病变的自动分类和诊断;2. 利用BRACS数据集进行乳腺癌的预后评估和风险预测;3. 基于BRACS数据集的乳腺病变特征提取和模式识别研究;4. 利用BRACS数据集进行乳腺病变的自动化分析,以提高病理诊断的效率和准确性。
以上内容由遇见数据集搜集并总结生成



