Wisconsin Breast Cancer Diagnostic dataset

github2024-11-10 更新2024-11-12 收录

下载链接：

https://github.com/MohammadErfanRashidi/Breast-Cancer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从数字化乳腺细针穿刺（FNA）图像中计算出的特征，描述了图像中细胞核的特征。

This dataset contains computed features derived from digitized breast fine-needle aspiration (FNA) images, which describe the characteristics of cell nuclei in the images.

创建时间：

2024-11-10

原始信息汇总

乳腺癌预测数据集

数据集概述

该数据集用于乳腺癌预测，基于威斯康星州乳腺癌诊断数据集。数据集包含从乳腺肿块的细针穿刺（FNA）图像中计算出的特征，描述了图像中细胞核的特征。

数据文件

数据集文件为 data.csv，包含以下列：

id: ID号
diagnosis: 诊断结果（M = 恶性，B = 良性）
radius_mean: 从中心到周边点距离的平均值
texture_mean: 灰度值的标准差
perimeter_mean: 核心肿瘤大小的平均值
area_mean: 核心肿瘤面积的平均值
smoothness_mean: 半径长度局部变化的平均值
compactness_mean: 周长^2 / 面积 - 1.0 的平均值
concavity_mean: 轮廓凹部严重程度的平均值
concave points_mean: 轮廓凹部数量的平均值
symmetry_mean: 对称性的平均值
fractal_dimension_mean: “海岸线近似” - 1 的平均值
radius_se: 从中心到周边点距离的平均值的标准误差
texture_se: 灰度值标准差的标准误差
perimeter_se: 核心肿瘤大小平均值的标准误差
area_se: 核心肿瘤面积平均值的标准误差
smoothness_se: 半径长度局部变化平均值的标准误差
compactness_se: 周长^2 / 面积 - 1.0 平均值的标准误差
concavity_se: 轮廓凹部严重程度平均值的标准误差
concave points_se: 轮廓凹部数量平均值的标准误差
symmetry_se: 对称性平均值的标准误差
fractal_dimension_se: “海岸线近似” - 1 平均值的标准误差
radius_worst: “最差”

搜集汇总

数据集介绍

构建方式

该数据集，即威斯康星州乳腺癌诊断数据集，是通过对乳腺肿块的细针穿刺（FNA）图像进行数字化处理而构建的。具体而言，数据集中的特征是从这些图像中提取的细胞核特征，这些特征描述了细胞核的形态学特性，如半径、纹理、周长、面积、平滑度、紧密度、凹度、凹点、对称性和分形维数等。这些特征的计算基于图像分析技术，旨在捕捉肿瘤细胞的微观结构信息，从而为乳腺癌的诊断提供量化依据。

特点

威斯康星州乳腺癌诊断数据集的一个显著特点是其高维度和多样的特征集合。数据集包含了30个特征，这些特征不仅涵盖了细胞核的基本几何属性，还涉及这些属性的统计描述，如均值、标准误差和“最差”值。这种多层次的特征描述使得数据集能够全面反映肿瘤细胞的复杂性，从而为诊断模型的构建提供了丰富的信息基础。此外，数据集的标签明确区分了恶性（M）和良性（B）肿瘤，为分类任务提供了清晰的监督信息。

使用方法

威斯康星州乳腺癌诊断数据集主要用于机器学习和数据挖掘领域的研究，特别是用于开发和验证乳腺癌诊断模型。使用该数据集时，研究者通常会将其分为训练集和测试集，以评估模型的性能。常见的应用包括逻辑回归、支持向量机、随机森林等分类算法的训练和测试。通过这些算法，可以预测新样本的诊断结果，从而辅助临床医生进行乳腺癌的早期检测和诊断。数据集的预处理步骤通常包括特征选择、归一化和数据清洗，以确保模型的稳定性和准确性。

背景与挑战

背景概述

威斯康星州乳腺癌诊断数据集（Wisconsin Breast Cancer Diagnostic dataset）是一个在乳腺癌研究领域中具有重要地位的数据集。该数据集由威斯康星大学的研究人员创建，旨在通过分析乳腺细针穿刺（FNA）图像中的细胞核特征，来预测乳腺癌的恶性或良性状态。数据集的核心研究问题是如何利用机器学习算法，特别是逻辑回归，来提高乳腺癌诊断的准确性和效率。这一数据集的发布对医学影像分析和机器学习在医疗诊断中的应用产生了深远影响，推动了相关领域的技术进步和临床实践的改进。

当前挑战

威斯康星州乳腺癌诊断数据集在构建和应用过程中面临多项挑战。首先，数据集的特征提取过程复杂，需要从乳腺细针穿刺图像中精确计算出多个描述细胞核特征的参数，这对图像处理技术提出了高要求。其次，数据集中的样本数量有限，可能导致模型训练时的过拟合问题，影响预测的泛化能力。此外，数据集中的特征维度较高，如何在保持模型性能的同时减少特征维度，是一个重要的优化挑战。最后，数据集的应用需要高度的专业知识和临床经验，以确保模型在实际诊断中的可靠性和有效性。

常用场景

经典使用场景

在乳腺癌诊断领域，威斯康星乳腺癌诊断数据集（Wisconsin Breast Cancer Diagnostic dataset）被广泛应用于机器学习模型的训练与验证。该数据集通过细针穿刺（FNA）图像提取的细胞核特征，如半径、纹理、周长等，为模型提供了丰富的输入信息。经典的使用场景包括利用逻辑回归、支持向量机等算法，对乳腺癌的良恶性进行分类预测，从而辅助临床医生做出更为准确的诊断决策。

衍生相关工作

基于威斯康星乳腺癌诊断数据集，研究者们开展了一系列相关工作。例如，有研究利用深度学习技术，如卷积神经网络（CNN），进一步提升了乳腺癌分类的准确性。此外，还有工作探讨了特征选择和降维方法，以优化模型的性能和解释性。这些衍生工作不仅丰富了乳腺癌诊断的研究领域，还为其他类型的癌症诊断提供了借鉴和参考，推动了整个医学影像分析领域的发展。

数据集最近研究