Breast Cancer Diagnostic dataset|乳腺癌诊断数据集|机器学习数据集
收藏github2024-07-19 更新2024-07-25 收录
下载链接:
https://github.com/rasikasrimal/TumorDiagnosis
下载链接
链接失效反馈资源简介:
该数据集来自UCI机器学习库,包含从乳腺肿块的细针抽吸(FNA)数字化图像计算的特征。这些特征描述了图像中细胞核的特性,包括半径、纹理、周长、面积等。数据集用于诊断乳腺癌,包含357个良性病例和212个恶性病例。
创建时间:
2024-07-02
原始信息汇总
肿瘤诊断数据集概述
数据集来源
- 数据集来自UCI机器学习库,可通过UW CS ftp服务器获取。
数据集描述
- 数据集包含乳腺肿瘤的诊断信息,特征从乳腺肿块的细针穿刺(FNA)图像中计算得出,描述了细胞核的特征。
- 数据集在论文《K. P. Bennett and O. L. Mangasarian: "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets", Optimization Methods and Software 1, 1992, 23-34》中有详细描述。
属性信息
- ID号
- 诊断结果(M = 恶性,B = 良性)
- 每个细胞核计算的十个实值特征:
- 半径(从中心到周边点的平均距离)
- 纹理(灰度值的标准差)
- 周长
- 面积
- 平滑度(半径长度的局部变化)
- 紧密度(周长的平方/面积 - 1.0)
- 凹度(轮廓凹部分的严重程度)
- 凹点(轮廓凹部分的数量)
- 对称性
- 分形维数(“海岸线近似” - 1)
- 每个特征的均值、标准误差和“最差”或最大值(三个最大值的均值)被计算,共30个特征。
- 所有特征值记录为四位有效数字。
- 缺失属性值:无
- 类别分布:357个良性,212个恶性
AI搜集汇总
数据集介绍

构建方式
乳腺癌诊断数据集源自UCI机器学习库,并通过UW CS FTP服务器提供。该数据集由数字化乳腺细针穿刺(FNA)图像的特征计算得出,这些特征描述了图像中细胞核的特性。具体而言,数据集包括30个特征,涵盖了细胞核的半径、纹理、周长、面积、平滑度、紧密度、凹度、凹点、对称性和分形维度的平均值、标准误差和最差值。数据集的构建基于K. P. Bennett和O. L. Mangasarian的研究,确保了数据的科学性和可靠性。
特点
乳腺癌诊断数据集的显著特点在于其高度的特征丰富性和数据完整性。数据集包含30个特征,每个特征都有三种不同的度量方式,提供了对细胞核特性的全面描述。此外,数据集无缺失值,确保了分析的连续性和准确性。类分布方面,数据集包含357例良性病例和212例恶性病例,提供了良好的分类基础。
使用方法
使用乳腺癌诊断数据集时,首先需确保安装Python 3.x、Jupyter Notebook、pandas、seaborn和matplotlib等依赖项。数据集可直接从UCI机器学习库或UW CS FTP服务器下载。在Jupyter Notebook中,用户可以通过加载数据集进行探索性数据分析(EDA),利用pandas进行数据处理,seaborn和matplotlib进行数据可视化,从而深入理解数据特征和类分布,为后续的机器学习模型训练提供坚实基础。
背景与挑战
背景概述
乳腺癌诊断数据集(Breast Cancer Diagnostic dataset)源自UCI机器学习库,由威斯康星大学麦迪逊分校计算机科学系提供。该数据集的核心研究问题是通过数字化图像的细针穿刺(FNA)特征来诊断乳腺癌。数据集包括30个特征,这些特征描述了图像中细胞核的特性,如半径、纹理、周长等。该数据集的研究始于1992年,由K. P. Bennett和O. L. Mangasarian在《Optimization Methods and Software》期刊上发表的论文中首次提出。该数据集的创建对乳腺癌诊断领域产生了深远影响,为机器学习算法在该领域的应用提供了宝贵的资源。
当前挑战
乳腺癌诊断数据集在构建过程中面临的主要挑战包括特征提取的准确性和数据的标准化。特征提取需要精确描述细胞核的形态学特征,这要求高精度的图像处理技术。此外,数据的标准化对于确保模型训练的稳定性和泛化能力至关重要。在应用层面,该数据集面临的挑战是如何有效区分良性和恶性肿瘤,尤其是在特征相似的情况下。此外,数据集的类分布不平衡(357例良性对212例恶性)也可能影响模型的性能,需要采用适当的平衡技术来解决这一问题。
常用场景
经典使用场景
在乳腺癌诊断领域,Breast Cancer Diagnostic数据集被广泛用于探索性数据分析和机器学习模型的开发。该数据集通过数字化乳腺细针穿刺(FNA)图像,提取了描述细胞核特征的30个特征,包括半径、纹理、周长等。这些特征为研究人员提供了丰富的信息,使得基于这些特征的分类模型能够有效区分恶性与良性肿瘤。
解决学术问题
该数据集解决了乳腺癌诊断中的关键学术问题,即如何通过图像分析技术准确区分恶性与良性肿瘤。通过提供详细的细胞核特征,研究人员能够开发出高效的分类算法,从而提高诊断的准确性和可靠性。这不仅推动了医学图像分析领域的发展,也为临床诊断提供了有力的支持。
衍生相关工作
基于Breast Cancer Diagnostic数据集,许多经典工作得以展开。例如,研究人员开发了多种机器学习模型,如支持向量机(SVM)和随机森林(Random Forest),用于肿瘤分类。此外,该数据集还激发了深度学习在医学图像分析中的应用,推动了卷积神经网络(CNN)在乳腺癌诊断中的研究。这些工作不仅提升了诊断的准确性,也为其他类型的癌症诊断提供了借鉴。
以上内容由AI搜集并总结生成



