BC-CT-Seg
收藏BC-CT-Seg — 乳腺癌CT扫描检测与实例分割数据集
数据集概述
BC-CT-Seg 是一个用于乳腺癌CT扫描检测与实例分割的新型数据集,包含来自巴基斯坦旁遮普省三个诊断中心的80例保留病例(47例乳腺癌 + 33例正常),共计约10,000张JPEG图像。数据集由巴基斯坦国家科技大学(NUST)的研究团队于2025年构建,旨在填补CT影像在乳腺癌AI检测领域的空白。
数据集规模与划分
| 划分 | 肿瘤图像 | 正常图像 | 总计 |
|---|---|---|---|
| 训练集 | 3,053 | 3,053 | 6,106 |
| 验证集 | 802 | 802 | 1,604 |
| 测试集 | 810 | 810 | 1,620 |
| 视频集 | — | — | 8–10名患者 |
| 总计 | 4,665 | 4,665 | ~10,000 |
- 图像尺寸:所有图像均缩放至 512×512 像素(最近邻插值)
- 像素值范围:归一化至 [0,1]
- 数据格式:DICOM 转换为 JPEG
- 数据集大小:约600 MB(完整数据集需申请获取)
数据来源
CT扫描采集自巴基斯坦旁遮普省三个诊断中心:
| 中心 | 地点 | 乳腺癌病例 | 正常病例 |
|---|---|---|---|
| 诊断实验室 | 萨希瓦尔 | 19 | 16 |
| PAEC医院 | 木尔坦 | 60 | — |
| Al Qasim实验室 | 木尔坦 | 40 | — |
排除无关检查(男性HRCT、骨扫描、腹部扫描)后保留80例,通过RadiAnt DICOM Viewer在轴向、矢状面和冠状面进行审查。
标注信息
- 标注工具:Roboflow
- 标注格式:YOLO-Seg多边形格式(.txt文件)
- 标注人员:具有10年以上经验的放射科医生手动绘制
- 标注数量:3,053张肿瘤图像带有精确的多边形标注
- 标注内容:肿瘤区域的掩膜、边界框和置信度分数
数据集结构
breast-cancer-ct-yolov11/ ├── Train/ │ ├── Tumors/ │ │ ├── images/ # 3,053张肿瘤图像(不在仓库中) │ │ └── labels/ # YOLO-Seg多边形标注(.txt)✓ │ └── Normal/ │ └── images/ # 3,053张正常图像(不在仓库中) ├── Valid/ │ ├── Tumors/ │ │ ├── images/ # 802张肿瘤图像(不在仓库中) │ │ └── labels/ # YOLO-Seg标注(.txt)✓ │ └── Normal/ │ └── images/ # 802张正常图像(不在仓库中) ├── Test/ │ ├── Tumors/ # 810张肿瘤图像(不在仓库中) │ └── Normal/ # 810张正常图像(不在仓库中) ├── samples/ # 10张代表性CT图像 │ ├── tumor/ # 5张肿瘤样本 │ └── normal/ # 5张正常样本 └── dataset.yaml # YOLO数据集配置
数据增强
训练时使用Keras ImageDataGenerator 进行在线数据增强:
| 增强方式 | 参数设置 |
|---|---|
| 水平/垂直平移 | 应用 |
| 缩放 | ±15% |
| 剪切变换 | 强度10.0 |
| 随机水平翻转 | 启用 |
| 亮度缩放 | 因子1.4 |
技术栈
| 组件 | 技术 |
|---|---|
| 实例分割 | YOLOv11-Seg(Ultralytics) |
| 迁移学习 | TensorFlow / Keras |
| 图像处理 | OpenCV, NumPy |
| 标注工具 | Roboflow |
| DICOM查看器 | RadiAnt DICOM Viewer |
| 训练GPU | Tesla T4(HPC) |
| 编程语言 | Python 3.12.7 |
联系方式与引用
- 论文标题:Deep Learning Applications for the Breast Cancer Diagnosis & Classification Using CT Scans
- 作者:Zainab Pervaiz 等,巴基斯坦国家科技大学(NUST),2025
- 作者联系:zaiinabpervaiz1999@gmail.com
- 完整数据集:需联系作者获取
- 许可协议:见 LICENSE 文件,学术或商业使用必须引用论文




