mstz/heart_failure
收藏Hugging Face2023-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/heart_failure
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自Kaggle,名为Heart failure,主要用于根据患者的个人医疗数据预测患者是否因心力衰竭死亡。数据集包含多个特征,如年龄、是否有贫血、血液中肌酸磷酸激酶浓度、是否有糖尿病、心脏射血分数、是否有高血压、血液中血小板浓度、血液中血清肌酐浓度、血液中血清钠浓度、性别、是否吸烟以及研究天数等。数据集的任务是二分类,即判断患者是否死亡。
该数据集来自Kaggle,名为Heart failure,主要用于根据患者的个人医疗数据预测患者是否因心力衰竭死亡。数据集包含多个特征,如年龄、是否有贫血、血液中肌酸磷酸激酶浓度、是否有糖尿病、心脏射血分数、是否有高血压、血液中血小板浓度、血液中血清肌酐浓度、血液中血清钠浓度、性别、是否吸烟以及研究天数等。数据集的任务是二分类,即判断患者是否死亡。
提供机构:
mstz
原始信息汇总
数据集概述
基本信息
- 名称: Heart failure
- 语言: 英语
- 标签:
- heart failure
- tabular_classification
- binary_classification
- UCI
- 美观名称: Heart failure
- 大小分类: n<1K
- 任务分类: tabular-classification
- 配置: death
- 许可证: cc
数据集描述
- 来源: Heart failure dataset from Kaggle
- 目的: 预测患者因心脏衰竭导致的死亡,基于个人医疗数据
任务与配置
- 配置: death
- 任务: Binary classification
- 描述: 判断患者是否死亡
数据集使用
python from datasets import load_dataset
dataset = load_dataset("mstz/heart_failure", "death")["train"]
特征
| Feature | Type |
|---|---|
age |
int8 |
has_anaemia |
int8 |
creatinine_phosphokinase_concentration_in_blood |
float64 |
has_diabetes |
int8 |
heart_ejection_fraction |
float64 |
has_high_blood_pressure |
int8 |
platelets_concentration_in_blood |
float64 |
serum_creatinine_concentration_in_blood |
float64 |
serum_sodium_concentration_in_blood |
float64 |
sex |
int8 |
is_smoker |
int8 |
days_in_study |
int64 |
搜集汇总
数据集介绍

构建方式
在心血管疾病研究领域,数据集的构建对于预测模型的发展至关重要。该数据集源自Kaggle平台,专注于心力衰竭患者的临床数据收集。其构建过程涉及从真实医疗记录中提取关键指标,涵盖了年龄、贫血状况、肌酸磷酸激酶浓度、糖尿病史、心脏射血分数、高血压状况、血小板浓度、血清肌酐浓度、血清钠浓度、性别、吸烟习惯以及研究观察天数等十二个维度的特征。这些数据经过结构化处理,形成统一的表格格式,旨在支持基于患者个人医疗信息预测死亡风险的二分类任务。
特点
该数据集在医学预测建模中展现出鲜明的特点。它包含299条样本,规模适中,适用于快速实验与模型验证。特征设计上,融合了连续型变量如肌酸磷酸激酶浓度和血清钠浓度,以及离散型变量如贫血、糖尿病等二元指标,全面反映了患者的多方面生理状态。数据以英文呈现,遵循CC许可协议,便于学术共享。其核心任务为二分类,即根据临床特征判断患者是否死亡,这为心力衰竭预后研究提供了简洁而实用的基准。
使用方法
在机器学习应用中,该数据集的使用方法直接而高效。用户可通过Hugging Face的datasets库加载数据,指定配置为“death”以获取训练集。加载后,数据以表格形式呈现,可直接用于特征工程与模型训练。典型流程包括数据预处理、特征标准化,随后应用逻辑回归、决策树或神经网络等分类算法进行死亡风险预测。由于其清晰的标签和结构化特征,该数据集适合作为教学工具或初步研究的基础,助力心血管疾病风险模型的开发与评估。
背景与挑战
背景概述
心力衰竭作为全球公共卫生领域的重大挑战,其早期预测与精准管理一直是临床医学与健康信息学研究的核心议题。在此背景下,mstz/heart_failure数据集应运而生,它源自Kaggle平台,由相关研究人员或机构整理并公开,旨在通过患者的临床与人口统计学特征,构建预测死亡风险的二分类模型。该数据集聚焦于利用机器学习方法辅助医疗决策,通过整合年龄、贫血状况、肌酐磷酸激酶浓度、射血分数等关键指标,为心血管疾病的风险分层与预后评估提供了重要的数据基础,推动了健康数据分析与预测模型在临床实践中的应用。
当前挑战
该数据集致力于解决心力衰竭患者死亡风险预测这一复杂问题,其核心挑战在于医疗数据的异质性与高维度特征间的非线性关联,这要求模型具备强大的特征选择与模式识别能力。在构建过程中,数据收集面临临床指标标准化不足、样本规模有限以及潜在的选择偏倚等难题,同时特征工程需处理缺失值、异常值及类别不平衡问题,以确保模型的稳健性与泛化性能。这些挑战共同凸显了在真实世界医疗场景中开发可靠预测工具所必需的数据质量与算法适应性。
常用场景
经典使用场景
在心血管医学与生物信息学领域,mstz/heart_failure数据集常被用于构建和验证患者死亡风险的预测模型。该数据集整合了年龄、贫血状况、肌酐磷酸激酶浓度等关键临床指标,为研究人员提供了一个标准化的二分类任务框架,旨在通过机器学习方法精准识别心力衰竭患者的高危群体。此类工作通常涉及逻辑回归、随机森林或梯度提升等算法,以探索特征与死亡事件之间的复杂关联。
实际应用
在实际医疗场景中,基于该数据集开发的预测工具可辅助临床医生进行早期风险评估。医院或健康管理机构能够利用模型输出,对心力衰竭患者实施分层管理,优先干预高危个体,优化资源配置。此外,这类模型也可集成至电子健康记录系统,实现实时风险预警,为动态调整治疗方案提供数据驱动的参考依据。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,包括特征重要性分析、集成学习框架的构建以及模型可解释性技术的应用。例如,部分研究通过SHAP或LIME等方法阐释关键预测因子,增强了临床信任度;另一些工作则结合时间序列分析或迁移学习,扩展了数据集在预后监测与跨人群泛化方面的潜力。这些成果共同丰富了心力衰竭预测的算法生态与理论体系。
以上内容由遇见数据集搜集并总结生成



