Haberman’s Cancer Survival Dataset

github2024-04-08 更新2024-05-31 收录

下载链接：

https://github.com/suvhradipghosh07/EDA-on-Haberman-Cancer-Survival-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Haberman生存数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的乳腺癌手术患者生存研究的数据。数据集属性包括患者的手术年龄、手术年份、检测到的阳性辅助节点数量以及生存状态。

The Haberman Survival Dataset encompasses data from a study on the survival of breast cancer surgery patients conducted at the University of Chicago Billings Hospital between 1958 and 1970. The dataset attributes include the patient's age at surgery, the year of surgery, the number of positive auxiliary nodes detected, and the survival status.

创建时间：

2019-03-22

原始信息汇总

数据集概述

数据集名称

Haberman’s Cancer Survival

数据集描述

该数据集包含1958年至1970年间，在芝加哥大学比林斯医院进行的乳腺癌手术患者生存情况的研究数据。

属性信息

手术时患者的年龄（数值型）
患者的手术年份（年份 - 1900，数值型）
检测到的阳性辅助节点数量（数值型）
生存状态（类别属性）：
- 1 = 患者存活5年或更长时间
- 2 = 患者在5年内死亡

研究目的

预测患者在手术后5年内是否存活，依据患者的年龄、治疗年份和阳性淋巴节点的数量。

搜集汇总

数据集介绍

构建方式

Haberman’s Cancer Survival Dataset 是从1958年至1970年间在芝加哥大学比林斯医院进行的一项研究中构建的，该研究旨在分析接受乳腺癌手术患者的生存情况。数据集包含了患者的年龄、手术年份、检测到的阳性腋窝淋巴结数量以及患者的生存状态。通过这些数据，研究者能够深入探讨影响患者术后五年生存率的关键因素。

特点

该数据集的显著特点在于其简洁性和临床相关性。数据集仅包含四个属性，但每个属性都与患者的生存状态密切相关，尤其是阳性腋窝淋巴结的数量，被认为是预测患者生存率的重要指标。此外，数据集的时间跨度较长，涵盖了1958年至1970年的患者数据，为研究提供了历史背景下的临床数据支持。

使用方法

使用Haberman’s Cancer Survival Dataset时，研究者可以通过导入必要的Python库（如Seaborn、Matplotlib等）来加载数据集，并进行探索性数据分析（EDA）。通过绘制密度图、散点图等可视化手段，研究者可以直观地观察各属性与患者生存状态之间的关系。此外，数据集可用于构建预测模型，以评估患者术后五年生存的可能性，为临床决策提供依据。

背景与挑战

背景概述

Haberman’s Cancer Survival Dataset 是由芝加哥大学比林斯医院在1958年至1970年间进行的一项研究中创建的，旨在探讨乳腺癌手术后患者的生存情况。该数据集包含了接受乳腺癌手术的患者的年龄、手术年份、检测到的阳性淋巴结数量以及患者的生存状态（是否存活超过五年）。这一数据集的核心研究问题是通过分析患者的年龄、手术年份和淋巴结数量，预测患者在手术后五年内的生存情况。该数据集在医学研究领域具有重要意义，为乳腺癌术后生存率的预测提供了宝贵的数据支持。

当前挑战

Haberman’s Cancer Survival Dataset 在构建和应用过程中面临多项挑战。首先，数据集的样本量较小，可能影响模型的泛化能力。其次，数据集的时间跨度较长，可能导致数据在不同年份之间的分布差异，增加了分析的复杂性。此外，数据集中的特征较为有限，可能无法全面反映患者的健康状况，限制了预测模型的准确性。最后，数据集的标签不平衡问题（即存活和未存活的患者比例不均）也可能影响模型的训练效果。

常用场景

经典使用场景

Haberman’s Cancer Survival Dataset 的经典使用场景主要集中在探索性数据分析（EDA）领域。研究者通过分析患者的年龄、手术年份以及检测到的阳性淋巴结数量等特征，预测患者在手术后五年内的生存状况。这一数据集为医学统计学和机器学习提供了宝贵的资源，尤其是在构建生存分析模型时，能够帮助研究者深入理解影响癌症患者生存率的关键因素。

衍生相关工作

Haberman’s Cancer Survival Dataset 的广泛应用催生了一系列相关的经典研究工作。例如，许多学者基于该数据集开发了各种生存分析模型，如Cox比例风险模型和随机森林模型，以提高预测精度。此外，该数据集还被用于验证各种数据挖掘和机器学习算法在医学领域的有效性，推动了医学数据科学的发展。这些衍生工作不仅丰富了医学统计学的理论体系，还为临床实践提供了有力的工具支持。

数据集最近研究