Habermans Survival Dataset
收藏github2019-09-24 更新2024-05-31 收录
下载链接:
https://github.com/Anil-ML/Exploratory-Data-Analysis-of-Breast-Cancer-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的一项研究中的病例,该研究关注接受乳腺癌手术患者的生存情况。数据集包含306个实例,4个属性,包括患者的年龄、手术年份、检测到的腋窝淋巴结数量以及生存状态。
This dataset comprises cases from a study conducted at the University of Chicago Billings Hospital between 1958 and 1970, focusing on the survival of patients who underwent breast cancer surgery. The dataset includes 306 instances and 4 attributes, encompassing the patient's age, the year of surgery, the number of detected axillary lymph nodes, and the survival status.
创建时间:
2019-09-24
原始信息汇总
Habermans Survival Data 数据集概述
数据集基本信息
- 标题: Habermans Survival Data
- 来源:
- 捐赠者: Tjen-Sien Lim (limt@stat.wisc.edu)
- 日期: March 4, 1999
- 历史用途:
- Haberman, S. J. (1976)
- Landwehr, J. M., Pregibon, D., and Shoemaker, A. C. (1984)
- Lo, W.-D. (1993)
- 相关信息: 该数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的一项关于乳腺癌手术后患者生存情况的研究数据。
- 实例数量: 306
- 属性数量: 4 (包括类别属性)
属性信息
- 年龄: 患者手术时的年龄 (数值型)
- 手术年份: 手术年份(以1900年为基准,数值型)
- 阳性腋窝淋巴结数量: 检测到的阳性腋窝淋巴结数量 (数值型)
- 生存状态: 类别属性
- 1: 患者存活5年以上
- 2: 患者在5年内死亡
缺失值情况
- 无缺失属性值
搜集汇总
数据集介绍

构建方式
Habermans Survival Dataset 乃基于1958年至1970年间,在芝加哥大学Billings医院进行的一项研究,该研究关注的是接受乳腺癌手术的患者之生存情况。数据集的构建汇集了该时段内306个病例的信息,涵盖了患者的年龄、手术年份、检测出的阳性腋下淋巴结数量以及五年内的生存状态。这些数据通过数值形式进行记录,构建过程确保了数据的完整性与准确性。
特点
该数据集具备以下显著特点:首先,数据源自真实世界的研究,具有很高的研究价值;其次,数据集包含的属性虽仅四项,但均为影响生存状态的关键因素,简洁而有力;再次,数据集不存在缺失值,保证了分析的完整性和结果的可靠性;最后,数据集规模适中,便于在学术研究和数据挖掘中进行有效处理与探索。
使用方法
使用该数据集时,用户可首先通过数据预处理步骤,将数据加载并转换为适宜的格式。随后,可以利用统计方法或机器学习算法对数据进行分析,例如构建生存模型、进行预后评估等。此外,数据集的开放性允许研究者对其进行二次开发,以满足特定的研究需求。用户在使用数据集时,应遵循数据保护法规和伦理准则,确保研究的合法性与道德性。
背景与挑战
背景概述
Habermans Survival Dataset是一份源于1958年至1970年间,在芝加哥大学Billings医院开展的一项研究数据。该项研究主要关注的是乳腺癌手术患者的生存情况。数据集的创建旨在为医学研究人员提供一个用于分析和预测乳腺癌患者术后生存状况的工具,它由Tjen-Sien Lim在1999年3月4日捐赠至公共领域。此数据集在统计模型研究领域具有重要影响力,如Haberman在1976年的研究,以及后续多位学者在其基础上进行的学术探索,为乳腺癌生存分析提供了丰富的数据资源。
当前挑战
该数据集在构建和应用过程中面临的主要挑战包括:数据集规模较小,仅有306个实例,这限制了其在构建大规模预测模型的效能;数据属性较少,仅有四个属性,可能无法涵盖影响乳腺癌生存状况的所有因素,导致模型预测的局限性;此外,数据集年代久远,可能无法反映现代医疗技术进步对生存率的影响。在解决乳腺癌领域问题时,数据集的这些局限性对模型的准确性和泛化能力提出了挑战。
常用场景
经典使用场景
在医学研究领域,Habermans Survival Dataset作为一类经典的数据资源,其最典型的应用场景在于对乳腺癌手术患者的生存情况进行预后分析。通过对患者年龄、手术年份、腋下阳性淋巴结数量等数据的深入挖掘,研究者能够构建出预测患者术后五年生存状况的模型,为临床决策提供重要参考。
衍生相关工作
Habermans Survival Dataset的广泛应用催生了众多相关研究工作,如构建基于逻辑回归的生存预测模型、开发生存树分析算法等。这些衍生工作不仅丰富了生存分析的理论体系,也为临床医学和公共健康领域提供了实用的工具和方法。
数据集最近研究
最新研究方向
在乳腺癌研究领域,Habermans Survival Dataset作为一项历史悠久的临床数据,持续受到广泛关注。近期,该数据集被用于探究患者术后生存率的预测模型。研究者们致力于开发更为精确的生存分析模型,以期能够基于患者的年龄、手术年份、腋下阳性淋巴结数量等临床特征,对患者的五年生存状态进行有效预测。此类研究对于完善个体化医疗方案,优化医疗资源配置具有深远的影响。
以上内容由遇见数据集搜集并总结生成



