Haberman Survival Data Set

github2020-08-14 更新2024-05-31 收录

下载链接：

https://github.com/meetshah133/HabermanSurvivalDataSet-Analysis

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的一项研究中的案例，该研究关注接受乳腺癌手术患者的生存情况。

This dataset comprises cases from a study conducted at the University of Chicago's Billings Hospital between 1958 and 1970, focusing on the survival outcomes of patients who underwent breast cancer surgery.

创建时间：

2019-06-24

原始信息汇总

数据集概述

数据集名称

Haberman Survival Data Set

数据集来源

该数据集来源于Kaggle，具体链接为：https://www.kaggle.com/gilsousa/habermans-survival-data-set

数据集内容

数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的乳腺癌手术患者的生存情况研究案例。

数据分析方法

进行了探索性数据分析，关键观察结果记录在ipython笔记本中。
使用KNN分类方法对患者的生存状态进行分类，依据患者的年龄和淋巴结数量。

搜集汇总

数据集介绍

构建方式

Haberman生存数据集源自1958年至1970年间在芝加哥大学比林斯医院进行的一项研究，该研究旨在探讨乳腺癌手术后患者的生存情况。数据集通过收集患者的年龄、手术年份、淋巴结数量以及生存状态等关键指标，构建了一个用于分析乳腺癌患者生存率的多维数据集。数据的采集过程严格遵循医学研究的标准，确保了数据的准确性和可靠性。

特点

该数据集的特点在于其简洁而富有信息量的结构，包含了306个样本，每个样本由四个特征组成：患者的年龄、手术年份、淋巴结数量以及生存状态（是否存活超过5年）。这些特征为研究者提供了丰富的信息，能够用于探索乳腺癌患者生存率的影响因素。数据集的小规模和高信息密度使其成为机器学习分类任务的理想选择，尤其是用于生存预测模型的训练和验证。

使用方法

Haberman生存数据集的使用方法主要集中在数据分析和机器学习分类任务上。研究者可以通过探索性数据分析（EDA）了解数据的分布和特征之间的关系，进而选择合适的模型进行生存预测。常用的方法包括K近邻算法（KNN）等分类算法，通过输入患者的年龄和淋巴结数量等特征，预测其生存状态。此外，该数据集还可用于评估不同分类算法的性能，为医学研究提供数据支持。

背景与挑战

背景概述

Haberman生存数据集源于1958年至1970年间在芝加哥大学比林斯医院进行的一项关于乳腺癌手术后患者生存情况的研究。该数据集由该医院的研究人员收集，旨在探讨乳腺癌手术后患者的生存率与多种临床特征之间的关系。数据集包含了患者的年龄、手术年份、淋巴结数量以及生存状态等关键信息，为后续的医学研究和数据分析提供了宝贵的基础。该数据集在医学统计和机器学习领域具有重要影响力，尤其是在生存分析和分类模型的研究中，为理解乳腺癌患者的预后因素提供了重要参考。

当前挑战

Haberman生存数据集在应用过程中面临多重挑战。首先，数据集规模较小，样本量有限，可能导致模型训练的泛化能力不足，难以捕捉复杂的生存模式。其次，数据集中类别不平衡问题显著，生存状态为‘存活’的样本远多于‘未存活’的样本，这可能导致分类模型偏向多数类，影响预测性能。此外，数据集的特征维度较低，仅包含年龄、手术年份和淋巴结数量等少数变量，限制了模型的表达能力。在构建过程中，研究人员还需克服数据收集的局限性，例如患者信息的完整性和准确性，以及历史数据的标准化问题。这些挑战共同构成了该数据集在医学研究和机器学习应用中的主要障碍。

常用场景

经典使用场景

Haberman Survival Data Set 主要用于医学研究领域，特别是在乳腺癌患者术后生存分析中。该数据集通过记录患者的年龄、手术年份、淋巴结数量以及生存状态，为研究者提供了一个经典的分类问题场景。研究者通常利用这些数据来训练和测试机器学习模型，以预测患者的生存状态。

衍生相关工作

基于 Haberman Survival Data Set，许多经典的研究工作得以展开。例如，研究者利用该数据集开发了多种分类算法，如KNN、决策树和支持向量机等，用于预测患者的生存状态。这些研究不仅推动了机器学习在医学领域的应用，还为后续的乳腺癌研究提供了重要的参考和借鉴。

数据集最近研究