EulerianKnight/breast-histopathology-images-train-test-valid-split

Name: EulerianKnight/breast-histopathology-images-train-test-valid-split
Creator: EulerianKnight
Published: 2023-05-22 17:45:55
License: 暂无描述

Hugging Face2023-05-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EulerianKnight/breast-histopathology-images-train-test-valid-split

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是对Kaggle上的原始乳腺癌组织病理学图像数据集的重排。原始数据集的结构是按照患者ID和类别（0和1）组织的，而当前数据集的结构被重新组织为训练集、验证集和测试集，每个集合下都有类别（0和1）的子目录。数据集的任务类别是图像分类，大小在100K到1M之间。

This dataset is a reorganized version of the original breast cancer histopathological image dataset hosted on Kaggle. The original dataset was structured based on patient IDs and two categories (0 and 1). In comparison, the current dataset has been restructured into training, validation, and test sets, each of which contains subdirectories corresponding to the two categories (0 and 1). The downstream task of this dataset is image classification, and its data scale ranges from 100K to 1M.

提供机构：

EulerianKnight

原始信息汇总

Breast Histopathology Image dataset 概述

数据集基本信息

许可证: Apache-2.0
任务类别: 图像分类
大小类别: 100K<n<1M

数据集来源

本数据集是对Kaggle上的原始数据集（https://www.kaggle.com/datasets/paultimothymooney/breast-histopathology-images）的重新组织。

数据引用

数据引用信息可参考：https://www.ncbi.nlm.nih.gov/pubmed/27563488 和 http://spie.org/Publications/Proceedings/Paper/10.1117/12.2043872

数据集结构

原始数据集结构:

|-- patient_id |-- class(0 and 1)
当前数据集结构:

|-- train |-- class(0 and 1) |-- valid |-- class(0 and 1) |-- test |-- class(0 and 1)

搜集汇总

数据集介绍

构建方式

在数字病理学领域，高质量的图像数据集对于乳腺癌诊断模型的开发至关重要。本数据集源自Kaggle平台上的原始乳腺组织病理学图像集合，通过系统性的重组与划分，构建了训练集、验证集和测试集。原始数据以患者为单位组织，包含良性与恶性两类图像；重构过程中，图像被重新整理为标准的机器学习格式，确保了数据结构的清晰性与可用性，为后续模型训练提供了坚实基础。

特点

该数据集涵盖了超过十万张乳腺组织病理学切片图像，规模介于十万至百万之间，属于中等偏大的图像分类数据集。图像已预先划分为训练、验证与测试三个子集，每类图像均标注为良性或恶性，便于直接应用于监督学习任务。数据集结构简洁明了，遵循常见的目录分类格式，支持即插即用的图像分类流程，显著降低了数据预处理复杂度。

使用方法

研究者可利用本数据集进行乳腺癌自动诊断相关的图像分类模型开发。数据集已按标准机器学习流程划分，用户可直接加载图像并应用卷积神经网络等深度学习架构进行训练与评估。通过调用训练集优化模型参数，结合验证集调整超参数，最终在测试集上评估模型性能，实现从数据到模型的高效迭代，推动病理学人工智能应用的发展。

背景与挑战

背景概述

乳腺癌作为全球女性最常见的恶性肿瘤之一，其早期精准诊断对提升患者生存率至关重要。该数据集源自2016年由美国国立卫生研究院（NIH）支持的BreakHis项目，由巴西圣保罗大学的研究团队构建，旨在通过数字化病理切片图像推动计算机辅助诊断系统的发展。数据集聚焦于乳腺组织病理图像的二元分类问题，区分良性（0类）与恶性（1类）病变，为深度学习模型在医学影像分析领域的应用提供了关键基准，显著促进了自动化癌症检测技术的进步。

当前挑战

该数据集的核心挑战在于解决乳腺病理图像分类中的高精度与鲁棒性需求，由于组织形态的复杂性和类间相似性，模型需克服细微特征差异的识别难题。构建过程中，原始数据来源于Kaggle平台，其结构重组为训练、验证与测试分割，这要求确保数据划分的均衡性与代表性，避免因样本分布偏差导致的模型泛化能力下降。同时，医学图像的标注依赖病理专家经验，数据质量与一致性维护成为关键制约因素。

常用场景

经典使用场景

在数字病理学领域，乳腺癌组织病理学图像数据集为计算机辅助诊断系统的开发提供了关键资源。该数据集通过将原始图像重新划分为训练、验证和测试集，为机器学习模型提供了标准化的评估框架。研究人员利用这些标注良好的图像，能够训练深度学习算法自动识别乳腺组织切片中的癌细胞区域，从而辅助病理学家进行高效、准确的诊断。这种经典使用场景不仅推动了医学图像分析技术的进步，也为后续研究奠定了坚实基础。

解决学术问题

该数据集有效解决了医学图像分析中样本标注一致性不足和数据划分标准缺失的学术难题。通过提供统一划分的训练、验证和测试集，它确保了不同研究之间的可比性和可重复性。在乳腺癌早期检测研究中，该数据集帮助学者探索更精准的分类模型，减少人工诊断的主观偏差。其意义在于为数字病理学建立了可靠的基准测试平台，促进了跨学科合作，加速了人工智能在医疗领域的实际应用进程。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究工作。例如，基于卷积神经网络的乳腺癌检测模型研究，通过改进网络架构提升了分类精度；迁移学习方法的引入，则解决了医学图像数据有限下的模型泛化问题。此外，生成对抗网络被用于数据增强，合成逼真的病理图像以扩充训练样本。这些工作不仅推动了计算机视觉技术在医疗领域的深入应用，也为后续多中心联合研究提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集