wwydmanski/wisconsin-breast-cancer

Name: wwydmanski/wisconsin-breast-cancer
Creator: wwydmanski
Published: 2023-02-23 19:11:33
License: 暂无描述

Hugging Face2023-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wwydmanski/wisconsin-breast-cancer

下载链接

链接失效反馈

官方服务：

资源简介：

WisconsinBreastCancerDiagnostic数据集是一个用于表格分类任务的数据集，主要涉及乳腺癌的诊断。数据集的特征是从乳腺肿块的细针穿刺（FNA）数字化图像中计算得出的，描述了图像中细胞核的特征。数据集的大小类别为小于1K。数据集的创建者包括William H. Wolberg、W. Nick Street和Olvi L. Mangasarian，捐赠者为Nick Street。数据集的属性信息包括ID号、诊断结果（恶性或良性）以及每个细胞核的十个实值特征，如半径、纹理、周长、面积、平滑度、紧密度、凹度、凹点、对称性和分形维度。

提供机构：

wwydmanski

原始信息汇总

数据集概述

任务类别

表格分类 (tabular-classification)

数据集名称

WisconsinBreastCancerDiagnostic

数据集大小

样本数小于1千 (n<1K)

数据集来源

复制自原始数据集：UCI Machine Learning Repository

创建者

Dr. William H. Wolberg, 外科系，威斯康星大学临床科学中心
W. Nick Street, 计算机科学系，威斯康星大学
Olvi L. Mangasarian, 计算机科学系，威斯康星大学

捐赠者

Nick Street

数据集信息

特征是从乳腺肿块的细针穿刺（FNA）图像中计算得出的，描述了图像中细胞核的特征。
使用多表面方法树（MSM-T）进行分类，该方法使用线性规划构建决策树。
通过在1-4个特征和1-3个分离平面的空间中进行穷举搜索来选择相关特征。

属性信息

ID号
诊断结果（M = 恶性，B = 良性） 3-32. 每个细胞核计算的十个实值特征：
- 半径（从中心到周边点的平均距离）
- 纹理（灰度值的标准偏差）
- 周长
- 面积
- 平滑度（半径长度的局部变化）
- 紧密度（周长^2 / 面积 - 1.0）
- 凹度（轮廓凹部分的严重程度）
- 凹点（轮廓凹部分的数量）
- 对称性
- 分形维数（“海岸线近似” - 1）

搜集汇总

数据集介绍

构建方式

威斯康星乳腺癌诊断数据集的构建源于医学影像分析领域的前沿探索，其核心数据来源于细针穿刺活检样本的数字化图像。研究团队通过高精度图像处理技术，从细胞核的形态学特征中提取了十项关键量化指标，包括半径均值、纹理标准差、周长及面积等几何与纹理属性。这些特征的选取采用了系统性的穷举搜索策略，在1至4个特征维度与1至3个分离平面的组合空间中优化筛选，并基于线性规划方法构建了多维空间中的分类决策平面，确保了特征集的判别力与鲁棒性。

使用方法

在应用该数据集时，研究者通常将诊断结果作为二分类目标变量，利用提供的数值型特征构建预测模型。数据预处理阶段需注意处理可能的缺失值，并将类别标签转换为数值编码。特征矩阵可直接输入逻辑回归、支持向量机或决策树等分类器进行训练，亦可通过特征缩放提升模型收敛效率。在验证环节，建议采用交叉验证策略评估模型泛化性能，并可通过特征重要性分析揭示关键病理指标。该数据集亦常用于比较不同分类算法在医学诊断任务中的效能，为临床辅助决策系统提供基准参考。

背景与挑战

背景概述

威斯康星乳腺癌诊断数据集（Wisconsin Breast Cancer Diagnostic Dataset）由威斯康星大学麦迪逊分校的William H. Wolberg、W. Nick Street和Olvi L. Mangasarian等研究人员于20世纪90年代初创建，旨在通过机器学习方法提升乳腺癌诊断的准确性与效率。该数据集源于细针穿刺细胞学图像的数字化分析，提取了细胞核的形态学特征，如半径、纹理和周长等，以区分良性（B）与恶性（M）肿瘤。作为早期医疗数据挖掘的典范，它不仅推动了分类算法在生物医学领域的应用，还为后续癌症诊断研究提供了标准化基准，对机器学习与医疗健康的交叉学科发展产生了深远影响。

当前挑战

该数据集的核心挑战在于解决乳腺癌诊断中的二分类问题，即基于有限的细胞核特征实现高精度肿瘤恶性判别，这要求模型在特征维度较少的情况下克服线性不可分性并提升泛化能力。构建过程中，研究人员面临多重困难：从细针穿刺图像中提取稳定且具有判别力的形态学特征需克服图像噪声与变异性的干扰；同时，在早期计算资源受限的条件下，采用线性规划与决策树方法进行特征选择和分类平面构建，涉及复杂的优化与搜索过程。此外，数据规模较小（不足千例）可能限制模型的统计鲁棒性，需依赖高效算法以最大化信息利用。

常用场景

经典使用场景

在医学诊断领域，威斯康星乳腺癌诊断数据集作为经典基准，广泛应用于机器学习模型的训练与评估。该数据集通过细针穿刺细胞核图像提取的数值特征，为分类算法提供了区分良恶性乳腺肿瘤的标准化数据。研究者常利用其进行监督学习实验，探索决策树、支持向量机等传统方法在二分类任务上的性能表现，从而验证模型在医学图像分析中的有效性与鲁棒性。

解决学术问题

该数据集有效解决了医学诊断中自动化分类的学术挑战，为研究高维特征下的模式识别提供了实证基础。通过量化细胞核形态学特征，它帮助学者克服了传统病理学依赖主观视觉评估的局限，促进了统计学习与临床诊断的交叉融合。其意义在于推动了可解释机器学习在医疗决策中的发展，为早期癌症筛查提供了可靠的计算模型，显著提升了诊断效率与一致性。

实际应用

在实际医疗场景中，该数据集支撑了辅助诊断系统的开发，帮助临床医生快速识别乳腺肿瘤的恶性风险。基于其构建的预测模型可集成至医院信息系统，实现实时病理分析，减少人为误判。此外，它还被用于医学教育工具中，训练医学生掌握肿瘤特征与诊断关联，提升诊断技能，最终优化乳腺癌筛查流程，助力精准医疗的实践推广。

数据集最近研究