five

BC-CT-Seg

收藏
github2026-05-04 更新2026-05-09 收录
下载链接:
https://github.com/ZainabPervaiz-cloud/breast-cancer-ct-yolov11
下载链接
链接失效反馈
官方服务:
资源简介:
BC-CT-Seg是一个用于乳腺癌CT扫描检测和实例分割的端到端AI框架,基于从巴基斯坦旁遮普省多个诊断中心新收集的标准数据集。该数据集填补了CT乳腺癌AI的关键空白,现有系统大多针对乳腺X光或MRI,而CT在很大程度上未被探索。数据集包含118个扫描,来自3个诊断中心,保留了80个病例(47个乳腺癌+33个正常),约10,000张JPEG图像。所有图像调整为512×512像素,像素值重新缩放到[0,1]。

BC-CT-Seg is an end-to-end AI framework for breast cancer CT scan detection and instance segmentation, developed based on a newly collected standard dataset from multiple diagnostic centers in Punjab, Pakistan. This dataset fills a critical gap in AI-driven breast cancer analysis using CT scans, as most existing AI systems primarily target mammography or MRI, while CT-based approaches have largely remained underexplored. The dataset includes 118 scans sourced from 3 diagnostic centers, with 80 eligible cases retained (47 breast cancer cases and 33 normal cases), amounting to approximately 10,000 JPEG images. All images are resized to 512×512 pixels, and their pixel values are rescaled to the range [0, 1].
创建时间:
2026-04-22
原始信息汇总

BC-CT-Seg — 乳腺癌CT扫描检测与实例分割数据集

数据集概述

BC-CT-Seg 是一个用于乳腺癌CT扫描检测与实例分割的新型数据集,包含来自巴基斯坦旁遮普省三个诊断中心的80例保留病例(47例乳腺癌 + 33例正常),共计约10,000张JPEG图像。数据集由巴基斯坦国家科技大学(NUST)的研究团队于2025年构建,旨在填补CT影像在乳腺癌AI检测领域的空白。


数据集规模与划分

划分 肿瘤图像 正常图像 总计
训练集 3,053 3,053 6,106
验证集 802 802 1,604
测试集 810 810 1,620
视频集 8–10名患者
总计 4,665 4,665 ~10,000
  • 图像尺寸:所有图像均缩放至 512×512 像素(最近邻插值)
  • 像素值范围:归一化至 [0,1]
  • 数据格式:DICOM 转换为 JPEG
  • 数据集大小:约600 MB(完整数据集需申请获取)

数据来源

CT扫描采集自巴基斯坦旁遮普省三个诊断中心:

中心 地点 乳腺癌病例 正常病例
诊断实验室 萨希瓦尔 19 16
PAEC医院 木尔坦 60
Al Qasim实验室 木尔坦 40

排除无关检查(男性HRCT、骨扫描、腹部扫描)后保留80例,通过RadiAnt DICOM Viewer在轴向、矢状面和冠状面进行审查。


标注信息

  • 标注工具:Roboflow
  • 标注格式:YOLO-Seg多边形格式(.txt文件)
  • 标注人员:具有10年以上经验的放射科医生手动绘制
  • 标注数量:3,053张肿瘤图像带有精确的多边形标注
  • 标注内容:肿瘤区域的掩膜、边界框和置信度分数

数据集结构

breast-cancer-ct-yolov11/ ├── Train/ │ ├── Tumors/ │ │ ├── images/ # 3,053张肿瘤图像(不在仓库中) │ │ └── labels/ # YOLO-Seg多边形标注(.txt)✓ │ └── Normal/ │ └── images/ # 3,053张正常图像(不在仓库中) ├── Valid/ │ ├── Tumors/ │ │ ├── images/ # 802张肿瘤图像(不在仓库中) │ │ └── labels/ # YOLO-Seg标注(.txt)✓ │ └── Normal/ │ └── images/ # 802张正常图像(不在仓库中) ├── Test/ │ ├── Tumors/ # 810张肿瘤图像(不在仓库中) │ └── Normal/ # 810张正常图像(不在仓库中) ├── samples/ # 10张代表性CT图像 │ ├── tumor/ # 5张肿瘤样本 │ └── normal/ # 5张正常样本 └── dataset.yaml # YOLO数据集配置


数据增强

训练时使用Keras ImageDataGenerator 进行在线数据增强:

增强方式 参数设置
水平/垂直平移 应用
缩放 ±15%
剪切变换 强度10.0
随机水平翻转 启用
亮度缩放 因子1.4

技术栈

组件 技术
实例分割 YOLOv11-Seg(Ultralytics)
迁移学习 TensorFlow / Keras
图像处理 OpenCV, NumPy
标注工具 Roboflow
DICOM查看器 RadiAnt DICOM Viewer
训练GPU Tesla T4(HPC)
编程语言 Python 3.12.7

联系方式与引用

  • 论文标题Deep Learning Applications for the Breast Cancer Diagnosis & Classification Using CT Scans
  • 作者:Zainab Pervaiz 等,巴基斯坦国家科技大学(NUST),2025
  • 作者联系:zaiinabpervaiz1999@gmail.com
  • 完整数据集:需联系作者获取
  • 许可协议:见 LICENSE 文件,学术或商业使用必须引用论文
搜集汇总
数据集介绍
main_image_url
构建方式
BC-CT-Seg数据集源自巴基斯坦旁遮普省三家诊断中心采集的118例胸部CT扫描,经放射科专家筛选后保留80例(47例乳腺癌与33例正常),共约10,000张JPEG图像。所有DICOM文件转换为512×512像素的标准化图像,像素值归一化至[0,1]区间。数据集按6:1.6:1.6的比例划分为训练集、验证集与测试集,其中肿瘤图像与正常图像严格配对以保证类别平衡。肿瘤区域的标注由拥有十年以上经验的放射科医生通过Roboflow平台手动绘制多边形,生成YOLO-Seg格式的精准分割标签。
使用方法
数据集的使用遵循双阶段流程。首先,利用迁移学习模型对原始CT切片进行二分类,区分肿瘤与正常组织,其中VGG16在测试集上达到82%的准确率。随后,采用YOLOv11-Seg模型加载含有多边形标注的肿瘤图像进行实例分割训练,在Tesla T4 GPU上以512×512输入尺寸、32批次大小训练50个周期,最终在测试集上实现了84.6%的精确度与90%的召回率。研究团队还提供了Flask网页应用程序,支持单张图像、视频及DICOM格式的上传与实时推理,为临床科研提供了便捷的交互工具。
背景与挑战
背景概述
BC-CT-Seg数据集由巴基斯坦国立科技大学(NUST)的Zainab Pervaiz等人于2025年创建,旨在填补CT影像在乳腺癌人工智能检测领域的空白。现有研究多聚焦于乳腺钼靶或磁共振成像,而CT影像因软组织对比度低、肿瘤边界模糊等问题未被充分探索。该数据集从旁遮普省三家诊断中心采集118例CT扫描,经筛选保留80例(47例乳腺癌,33例正常),共约10,000张JPEG图像,并由资深放射科医师手动标注多边形掩膜。该工作首次在巴基斯坦人群的CT数据上系统评估了八种迁移学习架构与YOLOv11-Seg实例分割模型,对推动低成本、资源有限环境下的计算机辅助诊断具有重要影响力。
当前挑战
该数据集所解决的核心挑战包括:其一,领域任务层面,CT影像中乳腺肿瘤与周围软组织灰度相似、对比度低,导致传统分类与分割方法精确度不足;其二,数据构建过程面临多中心、多设备采集带来的异质性,以及巴基斯坦当地诊断中心数据散落、标注标准不统一的困难。具体而言,研究仅保留80例可用样本(约10,000张图像),微小数据集使得复杂模型(如EfficientNet)出现过拟合;同时,手工多边形标注耗时且依赖单一放射科医师的经验,难以保证大规模标注一致性。此外,实时视频推理阶段需在10帧/秒下处理低对比度病灶,进一步加剧了像素级分割的挑战。
常用场景
经典使用场景
BC-CT-Seg数据集的核心应用场景在于构建和评估面向CT影像的乳腺癌检测与分割模型。该数据集包含约10,000张来自巴基斯坦三家医疗机构的标准化CT切片图像,覆盖肿瘤与正常组织两类样本,并配有资深放射科医师手工标注的多边形实例分割掩码。研究团队基于此数据集设计了两阶段深度学习框架:第一阶段利用VGG16等迁移学习模型对原始CT切片进行良恶性分类,建立诊断基线;第二阶段采用YOLOv11-Seg模型在像素级别精准定位肿瘤区域,输出边界框、多边形掩码与置信度分数。此外,该数据集还支持实时视频推理场景,可在10 FPS帧率下对CT视频流进行逐帧肿瘤检测与标注。这一标准化数据集填补了基于CT影像的乳腺癌人工智能研究中的关键数据空白,为低资源环境下的自动化辅助诊断系统提供了训练与评估基准。
解决学术问题
在学术研究层面,BC-CT-Seg数据集系统性地解决了CT影像在乳腺癌诊断中缺乏大规模、高质量标注数据的瓶颈问题。传统乳腺癌AI研究多聚焦于钼靶或磁共振成像,而CT影像因组织对比度低、病灶形态复杂等原因,在深度学习领域的探索尚显不足。该数据集通过跨机构收集、严格影像质量筛选以及专业医生对全部肿瘤区域的精细多边形标注,为迁移学习和实例分割模型在CT乳腺癌检测中的性能评估提供了标准化平台。基于该数据集的研究揭示了关键学术洞见:在分类阶段,较深的模型(如EfficientNet系列和DenseNet系列)因数据集规模有限而出现过拟合,反而是结构相对简洁的VGG16在测试集上取得了82%的准确率和0.80的AUC-ROC,表明CT乳腺癌特征提取需要平衡模型容量与泛化能力。在分割阶段,YOLOv11-Seg达到了84.6%的精确率和90%的召回率,但掩码mAP@50为0.66,揭示了低对比度CT区域像素级分割的固有挑战。这些发现为后续研究者在模型选择、数据增强策略和损失函数设计上提供了重要参考。
实际应用
在实际应用层面,BC-CT-Seg数据集及其配套模型展现出广泛的临床转化潜力。在放射科日常诊疗中,该框架可作为AI辅助工具,自动识别乳腺CT图像中的可疑病灶并进行实时分割测量,显著减轻放射科医师的阅片负担。对于医疗资源匮乏的地区,这一自动化计算机辅助诊断系统能够弥补资深放射科专家不足的困境,为基层医疗机构提供可靠的肿瘤筛查与分诊支持。在大型乳腺癌筛查项目中,该数据集的实时视频推理能力允许对CT扫描序列进行高效批处理,仅对包含肿瘤的关键帧进行标注,大幅提升影像科工作流程的效率。此外,数据集中多样化的肿瘤形态、大小和对比度变化,使其在医学教育领域也具有重要应用价值——学员可通过可视化分割结果深入理解不同病理表型在CT影像上的呈现特征,从而加速诊断技能的培养。研究团队还部署了基于Flask的web应用程序,支持单张图像、视频、DICOM文件及文件夹上传并实时显示分割结果与置信度,进一步降低了技术使用门槛。
数据集最近研究
最新研究方向
BC-CT-Seg数据集聚焦于利用深度学习在CT影像中实现乳腺癌的检测与实例分割,代表了医学影像分析领域向CT模态拓展的前沿探索。当前研究热点集中于利用YOLOv11-Seg架构进行像素级肿瘤定位,并通过迁移学习建立分类基线,在巴基斯坦多机构采集的真实临床数据上验证了方法的有效性。该工作针对CT影像在乳腺癌AI中研究不足的痛点,构建了首个包含约10,000张图像的标准CT数据集,实验表明VGG16在分类任务中表现最佳,而YOLOv11-Seg在分割任务上取得了84.6%的精确度和90%的召回率。该研究的重要意义在于为资源有限地区提供了实时视频推理支持的自动化辅助诊断方案,有望推动CT在乳腺癌筛查和放射科工作流程中的智能化应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作