Haberman’s Cancer Survival Dataset

github2024-04-08 更新2024-05-31 收录

下载链接：

https://github.com/iamsuvhro/EDA-on-Haberman-Cancer-Survival-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Haberman生存数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的一项研究中，接受乳腺癌手术患者的生存情况。数据集属性包括患者的手术年龄、手术年份、检测到的阳性辅助节点数量以及生存状态。

The Haberman Survival Dataset encompasses data from a study conducted at the University of Chicago Billings Hospital between 1958 and 1970, focusing on the survival status of patients who underwent surgery for breast cancer. The dataset attributes include the patient's age at surgery, the year of surgery, the number of positive auxiliary nodes detected, and the survival status.

创建时间：

2019-03-22

原始信息汇总

Haberman’s Cancer Survival Data Set Summary

Data Description

Source: University of Chicago’s Billings Hospital
Period: 1958 - 1970
Objective: To predict patient survival after 5 years post-surgery for breast cancer

Attribute Information

Age of patient at time of operation (numerical)
Patient’s year of operation (year — 1900, numerical)
Number of positive auxillary nodes detected (numerical)
Survival status (class attribute)
- 1 = the patient survived 5 years or longer
- 2 = the patient died within 5 years

Analysis Tools

Python Libraries: Seaborn, Matplotlib, NumPy, Pandas
Visualization Example: Density plot of patient age vs. year of operation

搜集汇总

数据集介绍

构建方式

Haberman’s Cancer Survival Dataset 源自1958年至1970年间在芝加哥大学Billings医院进行的一项关于乳腺癌手术后患者生存情况的研究。该数据集通过收集患者的年龄、手术年份、检测到的阳性腋窝淋巴结数量以及生存状态等关键信息构建而成。这些数据为研究乳腺癌手术后的生存率提供了宝贵的实证基础，通过系统的数据收集和整理，确保了数据集的科学性和可靠性。

使用方法

使用Haberman’s Cancer Survival Dataset时，首先需导入必要的Python库，如Seaborn、Matplotlib和Pandas，以进行数据加载和可视化分析。通过密度图等可视化工具，可以直观地展示各变量之间的关系，如患者年龄与手术年份的分布情况。此外，数据集可用于构建预测模型，通过分析患者的年龄、手术年份和阳性淋巴结数量，预测患者在手术后5年内的生存状态，为临床决策提供科学依据。

背景与挑战

背景概述

Haberman’s Cancer Survival Dataset，由芝加哥大学Billings医院在1958年至1970年间进行的一项关于乳腺癌患者术后生存情况的研究数据集。该数据集的核心研究问题在于通过患者的年龄、手术年份和检测到的阳性淋巴结数量来预测患者术后五年内的生存状况。这一研究不仅为乳腺癌的术后管理提供了宝贵的数据支持，也为医学领域的生存分析和预测模型构建奠定了基础。

当前挑战

Haberman’s Cancer Survival Dataset在构建过程中面临的主要挑战包括数据的时间跨度较长，可能导致数据在不同年份的分布和特征上存在显著差异。此外，数据集的样本量相对较小，可能影响模型的泛化能力和预测精度。在应用层面，如何有效利用这些特征进行生存预测，尤其是在处理不平衡数据（即生存与非生存样本的比例不均）时，是该数据集面临的重要挑战。

常用场景

经典使用场景

Haberman’s Cancer Survival Dataset的经典使用场景主要集中在医学数据分析领域，特别是用于探索性数据分析（EDA）。通过分析患者的年龄、手术年份和检测到的阳性淋巴结数量，研究人员可以预测患者在手术后五年内的生存状况。这种分析有助于识别影响患者生存率的关键因素，从而为临床决策提供科学依据。

解决学术问题

该数据集解决了医学研究中关于乳腺癌患者术后生存率预测的常见学术问题。通过分析患者的年龄、手术年份和阳性淋巴结数量，研究人员能够建立预测模型，评估患者的生存概率。这不仅有助于提高临床诊断的准确性，还为制定个性化的治疗方案提供了数据支持，具有重要的学术意义和临床应用价值。

实际应用

在实际应用中，Haberman’s Cancer Survival Dataset被广泛用于医学研究和临床实践中。医生和研究人员利用该数据集进行生存分析，评估不同治疗方案的效果，优化手术和术后护理策略。此外，该数据集还被用于开发和验证预测模型，帮助医生在手术前对患者的预后进行更准确的评估，从而提高治疗效果和患者生存率。

数据集最近研究