Haberman Dataset
收藏github2019-09-20 更新2024-05-31 收录
下载链接:
https://github.com/TanoyAI/EDA_Haberman_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的一项研究中,接受乳腺癌手术患者的生存情况。数据集属性包括患者的手术年龄、手术年份、检测到的阳性腋窝淋巴结数量以及生存状态。
This dataset encompasses the survival outcomes of patients who underwent breast cancer surgery at the University of Chicago Billings Hospital between 1958 and 1970. The dataset attributes include the patient's age at surgery, the year of surgery, the number of positive axillary lymph nodes detected, and the survival status.
创建时间:
2019-09-20
原始信息汇总
数据集概述
数据集内容
本数据集包含1958年至1970年间,芝加哥大学比林斯医院进行的一项关于乳腺癌手术患者生存情况的研究案例。
属性信息
- 年龄:患者手术时的年龄(数值型)
- 手术年份:患者的手术年份(年份 - 1958,数值型)
- 腋窝淋巴结阳性数:检测到的阳性腋窝淋巴结数量(数值型)
- 生存状态:患者的生存状态(分类属性)
- 1 = 患者存活5年或更长时间
- 2 = 患者在5年内去世
搜集汇总
数据集介绍

构建方式
Haberman数据集的构建基于1958年至1970年间在芝加哥大学Billings医院进行的一项研究,该研究关注的是接受乳腺癌手术的患者生存情况。数据集的构建通过收集患者的临床信息,包括年龄、手术年份、腋下阳性淋巴结数量以及五年内的生存状态,从而形成了一个包含多个属性的案例集合。
特点
该数据集的特点在于其包含的信息具有高度的针对性,全部数据均与乳腺癌手术后的生存率相关。数据集的属性涵盖了个体的基础医学特征,如年龄和手术时间,以及关键的病理学指标如淋巴结的阳性数量。此外,作为分类属性的患者生存状态,为数据集提供了直接的评估目标,即患者是否在五年内生存。
使用方法
使用Haberman数据集时,研究者首先需要进行数据清洗和预处理,以确保数据质量。之后,可以利用统计分析和机器学习方法对数据进行探索,以揭示影响乳腺癌患者术后生存率的因素。数据集的生存状态属性特别适用于分类模型的训练与评估,从而为临床决策提供数据支持。
背景与挑战
背景概述
Haberman数据集源自一项在1958年至1970年间,于芝加哥大学Billings医院开展的研究。该研究旨在探究接受乳腺癌手术的患者生存情况。数据集包含了患者的年龄、手术年份、检测到的阳性腋下淋巴结数量以及生存状态等信息,为医学研究领域,尤其是乳腺癌生存率分析提供了宝贵的实证资源。Haberman数据集的构建,不仅为后续的医学统计研究奠定了基础,也促进了机器学习在医疗预测分析中的应用。
当前挑战
尽管Haberman数据集在医学研究领域的应用具有开创性,但其在数据构建过程中亦面临诸多挑战。首先,数据集的样本量相对较小,可能无法充分代表整体乳腺癌患者的生存情况。其次,数据集中的某些特征,如手术年份与年龄的关联,可能存在一定的偏差。再者,数据集的生存状态仅为二元分类,无法详细反映患者的生存质量或其他生存相关指标。这些挑战使得数据集在精确性和泛化能力上存在一定的局限性。
常用场景
经典使用场景
Haberman数据集源于对乳腺癌手术患者生存状况的研究,其经典使用场景在于医学领域的数据挖掘和生存分析。该数据集提供了患者的年龄、手术年份、腋下阳性淋巴结数量以及五年生存状况等关键信息,使得研究人员能够利用这些数据开展深入的探索性数据分析,以揭示潜在的生存规律和风险因素。
解决学术问题
在学术研究中,Haberman数据集解决了如何利用统计模型对乳腺癌患者的生存率进行预测的问题。它为研究人员提供了一个基础,以探究不同变量如年龄、手术时间与生存率之间的关系,对于理解乳腺癌的生存模式和影响因素具有重要的学术意义和参考价值。
衍生相关工作
基于Haberman数据集,衍生出了众多关于生存分析和医学数据挖掘的经典工作。这些研究不仅涉及统计模型的构建和验证,还包括对数据集进行扩展和改进,以适应更广泛的医学研究和临床应用需求。
以上内容由遇见数据集搜集并总结生成



