Breast-Cancer-Wisconsin-Diagnostic-Dataset
收藏github2020-04-26 更新2024-05-31 收录
下载链接:
https://github.com/AkshayMewada/ML-on-Breast-Cancer-Wisconsin-Diagnostic-Dataset-using-Scikit-Learn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含乳腺癌威斯康星诊断数据,具有30个特征,包括细胞核的平均半径、纹理、周长、面积、平滑度、紧密度、凹度、凹点数量、对称性和分形维数等。
This dataset comprises the Wisconsin Diagnostic Breast Cancer data, featuring 30 attributes, including the mean radius, texture, perimeter, area, smoothness, compactness, concavity, number of concave points, symmetry, and fractal dimension of cell nuclei.
创建时间:
2017-10-13
原始信息汇总
数据集概述
数据集名称
- ML-on-Breast-Cancer-Wisconsin-Diagnostic-Dataset-using-Scikit-Learn
数据集来源
数据集属性信息
- ID 号码
- 诊断结果 (M = 恶性, B = 良性)
- 3-32 属性:
- 10个实值特征,每个细胞核的计算包括:
- 半径(从中心到边缘点的平均距离)
- 纹理(灰度值的标准差)
- 周长
- 面积
- 平滑度(半径长度的局部变化)
- 紧凑度(周长平方/面积 - 1.0)
- 凹度(轮廓凹部分的严重程度)
- 凹点(轮廓凹部分的数量)
- 对称性
- 分形维数(“海岸线近似” - 1)
- 每张图像的平均值、标准误差和“最差”或最大值(三个最大值的平均)计算,共30个特征。
- 10个实值特征,每个细胞核的计算包括:
使用的模块
- Numpy
- Pandas
- matplotlib
- seaborn
- Scikit-Learn
使用的模型
- 高斯朴素贝叶斯
- K-最近邻
- 支持向量机
- 逻辑回归
- 决策树
- 随机森林
搜集汇总
数据集介绍

构建方式
Breast-Cancer-Wisconsin-Diagnostic-Dataset的构建,是基于乳腺肿瘤细胞核的图像分析。该数据集采集了乳腺肿瘤细胞核的图像,并计算了细胞核的十个实值特征,包括半径、纹理、周长、面积等。这些特征的均值、标准误差以及最大值(三个最大值的均值)被计算出来,形成了数据集中的30个特征。这一构建过程确保了数据集能够充分反映乳腺肿瘤的细胞核特征,为后续的机器学习模型训练提供了基础。
特点
该数据集的特点在于其详尽的细胞核特征描述和清晰的病例标签。数据集包含ID编号、诊断标签(M代表恶性,B代表良性)以及30个细胞核特征,这些特征涵盖了细胞核的大小、形状、纹理等多个维度。此外,数据集经过精心设计,确保了特征值的准确性和可靠性,适用于多种机器学习模型的训练与评估。
使用方法
使用该数据集时,用户首先需要从指定的Kaggle链接下载数据集。随后,用户可以利用Numpy、Pandas等工具对数据进行预处理,使用matplotlib和seaborn进行可视化分析,并利用Scikit-Learn等机器学习库中的模型进行训练和测试。数据集支持多种模型的训练,如高斯朴素贝叶斯、K-最近邻、支持向量机、逻辑回归、决策树和随机森林等,为研究者提供了丰富的选择。
背景与挑战
背景概述
Breast-Cancer-Wisconsin-Diagnostic-Dataset是一个在医学影像分析领域具有里程碑意义的公共数据集,创建于1989年,由威斯康星大学医院的医生和研究人员共同构建。该数据集聚焦于乳腺肿瘤的良恶性诊断问题,包含569个样本,每个样本具有32个属性,其中包括细胞核的十个实值特征及其均值、标准误差和最坏情况下的值。该数据集为乳腺癌的早期诊断和治疗提供了重要数据支撑,对医疗影像分析和机器学习领域的研究具有深远影响。
当前挑战
在数据集构建和应用过程中,研究人员面临了诸多挑战。首先,数据集的质量和可靠性是关键,确保每个样本的特征值准确无误至关重要。其次,如何有效利用这些高维特征进行建模和分类,以实现高精度的良恶性诊断,是机器学习领域的一大挑战。此外,数据集的样本量相对较小,可能导致模型过拟合,需要采用适当的方法来增强模型的泛化能力。
常用场景
经典使用场景
在医学图像分析领域,Breast-Cancer-Wisconsin-Diagnostic-Dataset数据集的经典使用场景在于,其为研究乳腺癌诊断提供了一个详尽的细胞核特征数据。研究者通常采用该数据集对多种机器学习算法进行训练与验证,以预测肿瘤的性质为良性或恶性,从而辅助临床决策。
实际应用
实际应用中,该数据集被广泛用于开发辅助诊断系统,其研究成果有助于医生在乳腺癌的早期发现和治疗中作出更加精准的判断,对提高患者生存率和生活质量具有显著意义。
衍生相关工作
基于此数据集,衍生出了一系列经典工作,包括但不限于对各种机器学习模型的性能比较研究,以及针对特征选择和模型优化策略的探讨,这些研究为乳腺癌的智能诊断提供了丰富的理论和技术支持。
以上内容由遇见数据集搜集并总结生成



