Breast Cancer Semantic Segmentation (BCSS) dataset
收藏github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/CancerDataScience/CrowdsourcingDataset-Amgadetal2019
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于乳腺癌语义分割,包含必要的下载信息和指导,以获取与论文相关的数据集。数据集中的每个掩码是一个.png图像,像素值编码区域类别成员。
This dataset is designed for semantic segmentation of breast cancer, encompassing essential download information and guidelines to access the dataset associated with the research paper. Each mask within the dataset is a .png image, with pixel values encoding the membership of regional categories.
创建时间:
2019-08-07
原始信息汇总
数据集概述
数据集名称
Breast Cancer Semantic Segmentation (BCSS) dataset
数据集来源
该数据集与论文 "Structured crowdsourcing enables convolutional segmentation of histology images" 相关联,论文作者为 Amgad M, Elfandy H 等,发表于 Bioinformatics 2019。
数据集内容
- 掩码图像:以
.png格式存储,像素值编码区域类别成员。 - 元数据:包含
gtruth_codes.tsv文件,解释掩码图像中的像素值编码。 - RGB图像:与掩码图像对应,可从 TCGA 幻灯片中提取。
数据集使用注意事项
- 关键提示:零像素代表非感兴趣区域(“不关心”类别),在模型训练中应赋予零权重,不代表“其他”类别。
- 分辨率设置:掩码和对应的 RGB 图像将根据
MPP或MAG设置的分辨率进行下载。
数据集下载
- 便捷下载链接:提供一个链接下载 0.25 MPP 分辨率的数据集。
- 命令行下载:通过脚本下载所有数据集元素,包括注释 JSON 文件、掩码和 RGB 图像。
数据集许可证
- 数据集:CC0 1.0 Universal (CC0 1.0) 公共领域贡献许可证。
- 代码:MIT 许可证。
引用要求
使用数据集时,建议引用相关论文。
搜集汇总
数据集介绍

构建方式
BCSS数据集的构建基于大规模的结构化众包,通过协作注释的方式对组织学图像进行卷积分割。该数据集的构建过程严格遵循了Amgad等人于2019年发表的研究方法,确保了数据的高质量和一致性。具体而言,数据集的构建包括从TCGA(The Cancer Genome Atlas)项目中提取RGB图像,并通过众包平台进行精细的语义分割注释。这些注释结果被转换为像素级别的掩码图像,每个像素值编码了区域类别成员关系。
特点
BCSS数据集的主要特点在于其高分辨率和精细的语义分割注释。数据集中的每张掩码图像都对应于一个RGB图像,且像素值精确地反映了区域类别。此外,数据集提供了多种分辨率的选择,包括MPP(Microns Per Pixel)和MAG(Magnification),以适应不同的研究需求。值得注意的是,数据集中的零像素值代表非感兴趣区域,这在模型训练时应被赋予零权重,而非视为‘其他’类别。
使用方法
使用BCSS数据集时,用户可以通过提供的下载链接或命令行脚本获取数据。数据集包括注释JSON文件、掩码图像和对应的RGB图像。用户可以根据需要调整下载配置,如保存路径、分辨率和下载元素。在模型训练过程中,应特别注意零像素值的处理,确保其不被误分类。此外,为了复现研究结果,用户应参考原始论文中的方法论,并使用提供的训练模型权重。
背景与挑战
背景概述
乳腺癌语义分割(BCSS)数据集是由Amgad M等人于2019年创建的,旨在通过结构化众包方法实现组织学图像的卷积分割。该数据集的核心研究问题是如何利用众包技术提高病理图像的分割精度,从而辅助乳腺癌的诊断与治疗。该数据集的创建对生物信息学领域具有重要影响,特别是在病理图像分析和计算机辅助诊断方面,为研究人员提供了一个标准化的数据集,以验证和改进图像分割算法。
当前挑战
BCSS数据集在构建过程中面临的主要挑战包括:1) 如何通过众包确保标注的一致性和准确性;2) 如何处理和编码像素值以区分不同区域类别;3) 如何在模型训练中有效利用‘don’t care’类别的像素。此外,数据集的使用者需注意,零像素不代表‘其他’类别,而应被赋予零权重,以避免在模型训练中引入误差。
常用场景
经典使用场景
在病理学领域,Breast Cancer Semantic Segmentation (BCSS) 数据集被广泛用于乳腺癌组织图像的语义分割任务。该数据集通过提供高分辨率的病理图像及其对应的标注掩码,使得研究人员能够训练和评估深度学习模型,以自动识别和分割乳腺癌组织中的不同区域。这种分割任务不仅有助于病理学家更高效地进行诊断,还能为后续的癌症研究提供精确的量化数据。
衍生相关工作
基于 BCSS 数据集,许多研究工作得以展开,其中包括开发和优化各种深度学习模型,如全卷积网络(FCN)和U-Net等,以提高病理图像分割的性能。此外,该数据集还促进了多模态数据融合和迁移学习在病理图像分析中的应用研究。这些衍生工作不仅推动了病理图像分析技术的发展,也为其他医学图像分析领域提供了宝贵的经验和方法。
数据集最近研究
最新研究方向
在乳腺癌病理图像分析领域,Breast Cancer Semantic Segmentation (BCSS) 数据集的最新研究方向主要集中在利用深度学习技术进行高精度的语义分割。该数据集通过结构化众包方法生成,为研究人员提供了丰富的标注信息,从而推动了基于卷积神经网络(CNN)的分割模型的发展。前沿研究不仅关注模型的准确性和鲁棒性,还探索了如何在不同分辨率和放大倍数下保持分割性能的一致性。此外,研究者们正致力于开发更高效的训练策略和模型架构,以应对大规模病理图像数据集的挑战,从而为乳腺癌的早期诊断和治疗提供更可靠的支持。
以上内容由遇见数据集搜集并总结生成



