Habermans Survival Data
收藏github2022-10-27 更新2024-05-31 收录
下载链接:
https://github.com/saugatapaul1010/EDA-on-Habermans-Cancer-Survival-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的一项研究中,接受乳腺癌手术患者的生存情况。数据集共有306个实例,4个属性,包括患者的年龄、手术年份、检测到的腋窝淋巴结数量以及生存状态。
This dataset encompasses the survival status of patients who underwent breast cancer surgery at the University of Chicago Billings Hospital during a study conducted from 1958 to 1970. The dataset comprises 306 instances and 4 attributes, including the patient's age, the year of surgery, the number of axillary lymph nodes detected, and the survival status.
创建时间:
2019-02-18
原始信息汇总
数据集概述
数据集名称
Habermans Survival Data
数据集来源
- 捐赠者:Tjen-Sien Lim (limt@stat.wisc.edu)
- 捐赠日期:March 4, 1999
相关信息
该数据集包含1958年至1970年间在芝加哥大学Billings医院进行的一项研究数据,该研究关注接受乳腺癌手术患者的生存情况。
数据集规模
- 实例数量:306
- 属性数量:4(包括类别属性)
属性信息
- 手术时患者的年龄(数值型)
- 手术年份(年份 - 1900,数值型)
- 检测到的腋窝淋巴结阳性数量(数值型)
- 生存状态(类别属性):
- 1 = 患者存活5年或更长时间
- 2 = 患者在5年内去世
数据集下载链接
https://www.kaggle.com/gilsousa/habermans-survival-data-set
搜集汇总
数据集介绍

构建方式
Habermans Survival Data 数据集源自1958年至1970年间在芝加哥大学比林斯医院进行的一项关于乳腺癌手术后患者生存情况的研究。该数据集由Tjen-Sien Lim博士于1999年捐赠,记录了306名患者的详细信息。数据集的构建基于患者的年龄、手术年份、检测到的阳性腋窝淋巴结数量以及患者的五年生存状态,旨在为研究者提供关于乳腺癌患者生存率的深入分析。
特点
该数据集包含306个实例,每个实例具有四个属性:患者手术时的年龄、手术年份(以1900年为基准)、检测到的阳性腋窝淋巴结数量以及患者的五年生存状态。生存状态分为两类:1表示患者存活五年或更长时间,2表示患者在五年内去世。这些属性为研究者提供了丰富的统计信息,能够帮助分析乳腺癌患者的生存率与手术特征之间的关系。
使用方法
Habermans Survival Data 数据集主要用于探索性数据分析(EDA),以研究乳腺癌患者的五年生存率。研究者可以通过分析患者的年龄、手术年份和阳性腋窝淋巴结数量等特征,预测患者的生存状态。数据集可从Kaggle平台下载,适用于机器学习模型的训练与验证,特别是在分类任务中,可用于评估模型对患者生存状态的预测能力。
背景与挑战
背景概述
Habermans Survival Data数据集源于1958年至1970年间在芝加哥大学比林斯医院进行的一项关于乳腺癌手术后患者生存率的研究。该数据集由Tjen-Sien Lim于1999年3月4日捐赠,包含了306例患者的详细记录,每例记录包括患者的年龄、手术年份、检测到的阳性腋窝淋巴结数量以及生存状态。这些数据为研究乳腺癌患者的五年生存率提供了宝贵的资源,尤其在评估手术效果和预测患者预后方面具有重要价值。该数据集的出现,极大地推动了医学领域对乳腺癌患者生存分析的研究,为后续的统计分析和机器学习模型构建奠定了基础。
当前挑战
Habermans Survival Data数据集在应用过程中面临多重挑战。首先,数据集规模较小,仅包含306例样本,这在统计学上可能限制了模型的泛化能力和预测精度。其次,数据集的特征维度较低,仅有四个属性,其中生存状态作为分类标签,可能无法充分捕捉到影响患者生存率的复杂因素。此外,数据集的构建时间较早,反映了20世纪中期的医疗水平和诊断技术,可能与现代医学数据存在显著差异,导致模型在当代应用中的适应性受限。最后,数据集中可能存在样本不平衡问题,即生存与死亡患者的比例不均,这进一步增加了模型训练的难度,尤其是在分类任务中可能导致偏差。
常用场景
经典使用场景
Habermans Survival Data 数据集广泛应用于医学研究领域,特别是在乳腺癌患者的生存分析中。通过对患者年龄、手术年份、阳性腋窝淋巴结数量等关键特征的探索性数据分析,研究者能够评估患者在手术后五年内的生存率。这一数据集为医学统计学家和临床研究人员提供了一个宝贵的资源,帮助他们理解乳腺癌手术后的生存模式。
衍生相关工作
基于 Habermans Survival Data 数据集,许多经典的研究工作得以展开。例如,研究者开发了多种机器学习模型,用于预测乳腺癌患者的生存率。此外,该数据集还催生了一系列关于癌症生存分析的统计方法研究,推动了医学统计学和机器学习在癌症研究中的交叉应用。
数据集最近研究
最新研究方向
近年来,Habermans Survival Data在医学统计和机器学习领域引起了广泛关注,尤其是在乳腺癌患者的生存预测研究中。该数据集通过记录患者的年龄、手术年份、阳性腋窝淋巴结数量以及生存状态,为研究者提供了宝贵的历史数据。当前的研究方向主要集中在利用先进的机器学习算法,如支持向量机、随机森林和深度学习模型,来预测患者的五年生存率。这些研究不仅有助于提高预测的准确性,还为个性化治疗方案的制定提供了科学依据。此外,随着医疗大数据和人工智能技术的快速发展,该数据集在癌症早期诊断和预后评估中的应用前景愈发广阔,具有重要的临床意义和社会价值。
以上内容由遇见数据集搜集并总结生成



