five

Breast Cancer Semantic Segmentation (BCSS) dataset|乳腺癌数据集|语义分割数据集

收藏
github2024-05-22 更新2024-05-31 收录
乳腺癌
语义分割
下载链接:
https://github.com/CancerDataScience/CrowdsourcingDataset-Amgadetal2019
下载链接
链接失效反馈
资源简介:
该数据集用于乳腺癌语义分割,包含必要的下载信息和指导,以获取与论文相关的数据集。数据集中的每个掩码是一个.png图像,像素值编码区域类别成员。

This dataset is designed for semantic segmentation of breast cancer, encompassing essential download information and guidelines to access the dataset associated with the research paper. Each mask within the dataset is a .png image, with pixel values encoding the membership of regional categories.
创建时间:
2019-08-07
原始信息汇总

数据集概述

数据集名称

Breast Cancer Semantic Segmentation (BCSS) dataset

数据集来源

该数据集与论文 "Structured crowdsourcing enables convolutional segmentation of histology images" 相关联,论文作者为 Amgad M, Elfandy H 等,发表于 Bioinformatics 2019。

数据集内容

  • 掩码图像:以 .png 格式存储,像素值编码区域类别成员。
  • 元数据:包含 gtruth_codes.tsv 文件,解释掩码图像中的像素值编码。
  • RGB图像:与掩码图像对应,可从 TCGA 幻灯片中提取。

数据集使用注意事项

  • 关键提示:零像素代表非感兴趣区域(“不关心”类别),在模型训练中应赋予零权重,不代表“其他”类别。
  • 分辨率设置:掩码和对应的 RGB 图像将根据 MPPMAG 设置的分辨率进行下载。

数据集下载

  • 便捷下载链接:提供一个链接下载 0.25 MPP 分辨率的数据集。
  • 命令行下载:通过脚本下载所有数据集元素,包括注释 JSON 文件、掩码和 RGB 图像。

数据集许可证

  • 数据集:CC0 1.0 Universal (CC0 1.0) 公共领域贡献许可证。
  • 代码:MIT 许可证。

引用要求

使用数据集时,建议引用相关论文。

AI搜集汇总
数据集介绍
main_image_url
构建方式
BCSS数据集的构建基于大规模的结构化众包,通过协作注释的方式对组织学图像进行卷积分割。该数据集的构建过程严格遵循了Amgad等人于2019年发表的研究方法,确保了数据的高质量和一致性。具体而言,数据集的构建包括从TCGA(The Cancer Genome Atlas)项目中提取RGB图像,并通过众包平台进行精细的语义分割注释。这些注释结果被转换为像素级别的掩码图像,每个像素值编码了区域类别成员关系。
特点
BCSS数据集的主要特点在于其高分辨率和精细的语义分割注释。数据集中的每张掩码图像都对应于一个RGB图像,且像素值精确地反映了区域类别。此外,数据集提供了多种分辨率的选择,包括MPP(Microns Per Pixel)和MAG(Magnification),以适应不同的研究需求。值得注意的是,数据集中的零像素值代表非感兴趣区域,这在模型训练时应被赋予零权重,而非视为‘其他’类别。
使用方法
使用BCSS数据集时,用户可以通过提供的下载链接或命令行脚本获取数据。数据集包括注释JSON文件、掩码图像和对应的RGB图像。用户可以根据需要调整下载配置,如保存路径、分辨率和下载元素。在模型训练过程中,应特别注意零像素值的处理,确保其不被误分类。此外,为了复现研究结果,用户应参考原始论文中的方法论,并使用提供的训练模型权重。
背景与挑战
背景概述
乳腺癌语义分割(BCSS)数据集是由Amgad M等人于2019年创建的,旨在通过结构化众包方法实现组织学图像的卷积分割。该数据集的核心研究问题是如何利用众包技术提高病理图像的分割精度,从而辅助乳腺癌的诊断与治疗。该数据集的创建对生物信息学领域具有重要影响,特别是在病理图像分析和计算机辅助诊断方面,为研究人员提供了一个标准化的数据集,以验证和改进图像分割算法。
当前挑战
BCSS数据集在构建过程中面临的主要挑战包括:1) 如何通过众包确保标注的一致性和准确性;2) 如何处理和编码像素值以区分不同区域类别;3) 如何在模型训练中有效利用‘don’t care’类别的像素。此外,数据集的使用者需注意,零像素不代表‘其他’类别,而应被赋予零权重,以避免在模型训练中引入误差。
常用场景
经典使用场景
在病理学领域,Breast Cancer Semantic Segmentation (BCSS) 数据集被广泛用于乳腺癌组织图像的语义分割任务。该数据集通过提供高分辨率的病理图像及其对应的标注掩码,使得研究人员能够训练和评估深度学习模型,以自动识别和分割乳腺癌组织中的不同区域。这种分割任务不仅有助于病理学家更高效地进行诊断,还能为后续的癌症研究提供精确的量化数据。
衍生相关工作
基于 BCSS 数据集,许多研究工作得以展开,其中包括开发和优化各种深度学习模型,如全卷积网络(FCN)和U-Net等,以提高病理图像分割的性能。此外,该数据集还促进了多模态数据融合和迁移学习在病理图像分析中的应用研究。这些衍生工作不仅推动了病理图像分析技术的发展,也为其他医学图像分析领域提供了宝贵的经验和方法。
数据集最近研究
最新研究方向
在乳腺癌病理图像分析领域,Breast Cancer Semantic Segmentation (BCSS) 数据集的最新研究方向主要集中在利用深度学习技术进行高精度的语义分割。该数据集通过结构化众包方法生成,为研究人员提供了丰富的标注信息,从而推动了基于卷积神经网络(CNN)的分割模型的发展。前沿研究不仅关注模型的准确性和鲁棒性,还探索了如何在不同分辨率和放大倍数下保持分割性能的一致性。此外,研究者们正致力于开发更高效的训练策略和模型架构,以应对大规模病理图像数据集的挑战,从而为乳腺癌的早期诊断和治疗提供更可靠的支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

ECMWF Reanalysis v5 (ERA5)

ERA5 是第五代 ECMWF 全球气候大气再分析,涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球,并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。

OpenDataLab 收录