Breast Cancer Dataset

github2020-08-12 更新2024-05-31 收录

下载链接：

https://github.com/jrao1724/Breast-Cancer-Dataset-KNN

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含乳腺癌患者的肿瘤信息，包括ID号、肿块厚度、细胞大小均匀性、细胞形状均匀性、边缘粘附性、单个上皮细胞大小、裸核、平淡染色质、正常核仁和有丝分裂等特征，以及肿瘤的良性或恶性分类。

This dataset comprises tumor information from breast cancer patients, including ID numbers, clump thickness, uniformity of cell size, uniformity of cell shape, marginal adhesion, single epithelial cell size, bare nuclei, bland chromatin, normal nucleoli, and mitosis, along with the classification of the tumor as benign or malignant.

创建时间：

2020-05-16

原始信息汇总

数据集概述

数据集名称

Breast Cancer Wisconsin (Original) Dataset

数据集来源

Breast Cancer Dataset

数据集特征

ID Number
Clump Thickness: 1 - 10
Uniformity of Cell Size: 1 - 10
Uniformity of Cell Shape: 1 - 10
Marginal Adhesion: 1 - 10
Single Epithelial Cell Size: 1 - 10
Bare Nuclei: 1 - 10
Bland Chromatin: 1 - 10
Normal Nucleoli: 1 - 10
Mitoses: 1 - 10
Class: 2 - Benign, 4 - Malignant

数据处理

将Class字段从原始的2/4转换为0/1。
移除了所有包含NaN值的行。

分析方法

使用seaborn创建混淆矩阵以分析特征相关性。
通过循环使用不同的最近邻值进行预测，并使用matplotlib绘制预测值，选择与最高预测百分比关联的最近邻值。
执行k-Fold交叉验证以确保模型既不过拟合也不欠拟合。

搜集汇总

数据集介绍

构建方式

该数据集源自威斯康星大学医院，旨在为乳腺癌诊断提供支持。数据通过临床检查收集，涵盖了患者的多个细胞特征，如细胞大小均匀性、细胞形状均匀性、边缘粘附等。每个特征均以1到10的尺度进行评分，最终类别标签为良性（2）或恶性（4）。数据经过清洗，去除了包含缺失值的样本，以确保分析的准确性。

特点

该数据集包含11个特征，其中10个为数值型特征，描述了肿瘤细胞的形态学特性，如细胞核大小、染色质均匀性等。类别标签为二元分类，分别表示良性肿瘤和恶性肿瘤。数据经过标准化处理，便于机器学习模型的训练与评估。此外，数据集的样本量适中，适合用于分类算法的实验与验证。

使用方法

该数据集适用于机器学习中的分类任务，特别是k近邻（kNN）算法的应用。使用前需对数据进行预处理，如将类别标签转换为0和1，并移除缺失值。通过特征相关性分析，可以筛选出对分类贡献较大的特征。随后，可利用交叉验证技术优化模型参数，避免过拟合或欠拟合。最终，模型可用于预测新样本的肿瘤类型，为临床诊断提供辅助决策。

背景与挑战

背景概述

乳腺癌数据集（Breast Cancer Dataset）源自威斯康星大学麦迪逊分校的研究，最初用于统计学课程项目，后经过修订和功能扩展。该数据集的核心研究问题是通过机器学习模型预测乳腺癌患者的肿瘤为良性或恶性。数据集包含11个特征，涵盖了细胞厚度、细胞大小均匀性、细胞形状均匀性等关键病理指标。该数据集在医学诊断和机器学习领域具有重要影响力，为乳腺癌的早期诊断和分类提供了宝贵的数据支持。

当前挑战

乳腺癌数据集的挑战主要体现在两个方面。首先，在领域问题层面，尽管数据集提供了丰富的病理特征，但如何从高维特征中提取最具判别性的信息以提升分类模型的准确性仍是一个关键难题。其次，在数据构建过程中，原始数据存在缺失值（NaN）和类别标签不一致的问题，需通过数据清洗和预处理来确保数据的完整性和一致性。此外，模型的泛化能力也面临挑战，需通过交叉验证等技术避免过拟合或欠拟合现象，从而提升模型的鲁棒性和实用性。

常用场景

经典使用场景

Breast Cancer Dataset 最经典的使用场景之一是用于训练和测试机器学习模型，特别是k近邻（kNN）算法，以预测乳腺癌患者的肿瘤是良性还是恶性。该数据集通过提供详细的细胞特征，如细胞大小均匀性、细胞形状均匀性等，为模型提供了丰富的输入信息，使得模型能够基于这些特征进行准确的分类预测。

解决学术问题

该数据集解决了乳腺癌诊断中的关键学术问题，即如何通过非侵入性方法准确区分良性和恶性肿瘤。通过提供大量标注数据，研究人员能够开发和验证各种机器学习算法，从而提高诊断的准确性和效率。这不仅推动了医学影像分析领域的发展，还为个性化医疗提供了数据支持。

衍生相关工作

基于 Breast Cancer Dataset，许多经典的研究工作得以展开。例如，研究人员开发了多种改进的kNN算法，结合交叉验证技术，进一步提升了模型的泛化能力。此外，该数据集还催生了基于深度学习的乳腺癌诊断模型，这些模型通过自动提取特征，显著提高了诊断的准确性和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集