five

Breast Cancer Immunohistochemical (BCI) 1|乳腺癌研究数据集|图像处理数据集

收藏
arXiv2023-09-22 更新2024-06-21 收录
乳腺癌研究
图像处理
下载链接:
https://bupt-ai-cz.github.io/BCI
下载链接
链接失效反馈
资源简介:
BCI数据集是由北京朝阳医院和首都医科大学合作创建的,专注于乳腺癌免疫组化图像生成。该数据集包含4872对已结构级对齐的H&E和IHC染色图像,用于研究从H&E到IHC染色图像的转换算法。数据集的构建过程包括切片准备、扫描、投影变换、elastix注册、图像精化和补丁选择。BCI数据集的应用领域主要集中在通过深度学习技术生成高质量的IHC染色图像,以辅助乳腺癌的诊断和治疗计划制定。
提供机构:
北京朝阳医院,首都医科大学
创建时间:
2023-05-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建乳腺癌免疫组化(BCI)1数据集的过程中,研究团队采用了多步骤的方法。首先,从患者的肿瘤组织中连续切割出两层切片,分别进行苏木精-伊红(H&E)染色和免疫组化(IHC)染色。随后,使用Hamamatsu NanoZoomer S60扫描仪对这些切片进行高倍率扫描,生成全切片图像(WSI)。为了处理计算资源和内存的限制,原始图像被降采样至原尺寸的一半。接着,通过投影变换和elastix注册两种操作,对H&E和IHC图像进行全局轮廓和内部细节的对齐。最后,对对齐后的图像进行后处理,包括填充黑色区域和分割成1024×1024像素的正方形补丁,筛选出包含肿瘤组织且对齐良好的图像对。
特点
BCI 1数据集的主要特点在于其结构级别的对齐和高质量的图像对。每对图像都经过了严格的注册过程,确保H&E和IHC图像在全局和局部细节上的一致性。此外,数据集包含了来自300多名患者的4872对图像,涵盖了HER2表达的四个等级(0, 1+, 2+, 3+),为研究HER2表达水平的检测和治疗提供了丰富的资源。数据集的设计旨在促进深度学习技术在病理图像生成中的应用,特别是从H&E图像直接生成IHC图像的研究。
使用方法
BCI 1数据集主要用于训练和验证深度学习模型,以实现从H&E染色图像到IHC染色图像的转换。研究者可以使用数据集中的图像对来训练图像翻译模型,目标是生成能够准确反映HER2表达水平的IHC图像。数据集分为训练集、验证集和测试集,分别包含3396对、500对和977对图像。训练集和验证集的图像对完全开放,而测试集仅开放H&E图像,用于模型的最终评估。评估指标包括峰值信噪比(PSNR)和结构相似性(SSIM),以确保生成的IHC图像在质量和结构上与真实图像高度一致。
背景与挑战
背景概述
乳腺癌是全球女性中最常见的癌症之一,早期诊断对于制定治疗方案和改善患者预后至关重要。免疫组化(IHC)技术常用于检测乳腺癌组织中人表皮生长因子受体2(HER2)的表达水平,以制定精准治疗方案。然而,传统的IHC染色过程耗时且成本高昂。为了解决这一问题,研究人员开发了乳腺癌免疫组化图像生成(BCI)数据集,旨在通过深度学习技术直接从苏木精-伊红(H&E)染色图像生成IHC染色图像,从而节省人力、物力和时间成本。该数据集由北京邮电大学人工智能学院等机构的研究人员于2017年创建,提供了注册的H&E和IHC染色图像对,为病理图像生成算法的研究奠定了基础。
当前挑战
BCI数据集的构建和应用面临多重挑战。首先,从H&E染色图像生成IHC染色图像需要克服图像间的结构和颜色差异,确保生成的图像能够准确反映HER2的表达水平。其次,数据集的构建过程中,图像对的配准和质量控制是关键步骤,任何配准误差或图像质量问题都可能影响模型的训练效果。此外,深度学习模型在生成IHC图像时,如何保持细胞结构的完整性和避免模式崩溃,是一个亟待解决的问题。最后,尽管已有多种图像翻译算法,但如何在弱监督或无监督的情况下实现高质量的图像生成,仍然是一个开放的研究领域。
常用场景
经典使用场景
在乳腺癌的诊断与治疗中,免疫组化(IHC)技术常用于检测人表皮生长因子受体2(HER2)的表达水平,以制定精准的治疗方案。BCI 1数据集通过提供配对的H&E染色和IHC染色图像,使得研究人员能够训练模型,直接从H&E染色图像生成IHC染色图像,从而节省人力、物力和时间成本。这一经典应用场景不仅推动了深度学习技术在病理图像生成领域的研究,也为乳腺癌的早期诊断和治疗提供了新的工具。
衍生相关工作
基于BCI 1数据集,研究者们开发了多种图像生成和翻译模型,如Pyramid Pix2pix、CUT和U-GAT-IT等。这些模型不仅在乳腺癌HER2表达评估中表现出色,还推动了图像翻译技术在其他病理图像分析任务中的应用,如肿瘤细胞分类、肿瘤分割和病理图像染色标准化等。此外,该数据集还激发了多任务学习和弱监督学习在病理图像分析中的研究,为计算机辅助诊断技术的发展提供了新的思路和方法。
数据集最近研究
最新研究方向
在乳腺癌诊断领域,Breast Cancer Immunohistochemical (BCI) 1数据集的最新研究方向主要集中在利用深度学习技术从H&E染色图像生成免疫组化(IHC)染色图像。这一研究方向旨在通过直接生成IHC染色图像来减少人力、物力和时间成本,同时提高HER2表达水平的检测精度。前沿研究不仅关注图像生成算法的创新,还强调了数据集的构建和挑战赛的设计,以推动该领域的技术进步。通过这些研究,期望能够激发更多学者共同探索更高质量的IHC染色图像生成方法,从而为乳腺癌的精准治疗提供有力支持。
相关研究论文
  • 1
    Breast Cancer Immunohistochemical Image Generation: a Benchmark Dataset and Challenge Review北京朝阳医院,首都医科大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

风电预测数据集

全球能源预测大赛(Global Energy Forecasting Competition ) 2012 - 风力发电赛道 所用数据集.

AI_Studio 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录