Kaggle heart attack risk

Name: Kaggle heart attack risk
Creator: Institute of Health Management Research, Electronic City, Bangalore 560105, Karnataka India
Published: 2025-05-27 20:51:04
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

http://arxiv.org/abs/2505.21139v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为‘Kaggle heart attack risk’，由303条记录组成，每条记录包含13个预测变量和一个目标变量。数据集融合了人口统计学、生化、心电图和铊应激测试等数据，旨在通过聚类和线性回归技术分析心脏攻击的风险因素。该数据集于2021年上传，并假设考虑了COVID-19对心脏健康风险的影响，尽管没有找到COVID-19大流行或COVID-19疫苗接种与心脏健康数据之间的直接联系。

This dataset, named "Kaggle heart attack risk", comprises 303 records, each containing 13 predictor variables and one target variable. It integrates data from multiple domains including demographics, biochemical tests, electrocardiograms, and thallium stress tests, with the goal of analyzing heart attack risk factors via clustering and linear regression techniques. Uploaded in 2021, this dataset is hypothesized to have accounted for the impact of COVID-19 on cardiac health risks, yet no direct correlation has been identified between the COVID-19 pandemic, COVID-19 vaccination, and the cardiac health data included in the dataset.

提供机构：

Institute of Health Management Research, Electronic City, Bangalore 560105, Karnataka India

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

Kaggle heart attack risk数据集通过整合多源临床数据构建而成，包含303个病例的13项关键预测因子，涵盖人口统计学特征（年龄、性别）、生化指标（胆固醇、空腹血糖）、心电图参数（静息心电图、最大心率）以及铊压力测试结果等多元维度。数据采集遵循标准化临床流程，采用5折交叉验证确保模型稳健性，并通过Cronbach's alpha（α=0.08）和Shapiro-Wilk检验（p=0）验证了数据非正态分布特性，反映了真实世界医疗数据的复杂性。

特点

该数据集的核心价值在于其多维风险标记的有机整合：既包含传统心血管危险因素（如胆固醇、血压），又纳入运动诱发心绞痛（exng）、ST段压低值（oldpeak）等动态生理指标。特别值得注意的是，数据呈现明显的性别差异特征，女性病例中绝经后心血管风险显著升高，与雌激素水平变化的病理机制形成呼应。通过高斯混合模型（GMM）聚类分析，数据集展现出84.24%的高风险群体识别准确率，其轮廓系数0.2623表明存在可解释的临床亚群重叠现象。

使用方法

研究者可基于该数据集实施三阶段分析框架：首先运用无监督学习（如GMM、DBSCAN）进行风险分层，识别高危亚群；继而通过皮尔逊相关系数（如thalachh与slp的r=0.38）筛选显著预测因子；最终构建多元线性回归模型计算个体化风险评分。临床应用中，建议重点关注绝经后女性群体，其风险评分≥121.17（数据集中位数）时应启动强化干预。数据已预分为训练集与测试集，可直接用于机器学习模型的开发与验证。

背景与挑战

背景概述

Kaggle heart attack risk数据集由Subhagata Chattopadhyay和Amit K Chattopadhyay等研究人员于2021年构建，旨在通过机器学习方法识别心血管疾病高危人群。该数据集整合了人口统计学、生化指标、心电图及铊压力测试等多维度临床数据，共包含303个样本的13项风险特征。在COVID-19疫情背景下，该研究揭示了40岁以上人群感染后心血管事件激增的现象，尤其关注雌激素缺失对绝经后女性心脏保护的机制缺失问题。数据集通过高斯混合模型(GMM)实现了84.24%的高危人群识别准确率，为临床决策支持系统(CDSS)的开发提供了重要数据基础，推动了心血管风险预测从规则驱动向数据驱动的范式转变。

当前挑战

该数据集面临双重挑战：在领域问题层面，传统心血管风险评估模型难以捕捉COVID-19后遗症等新型风险因素，且绝经女性特有的非阻塞性冠心病发病机制导致现有生物标志物预测效能下降；在构建过程层面，数据集存在样本量有限(N=303)、生活方式因素缺失等结构缺陷，且临床参数的非正态分布(Shapiro-Wilk检验p=0)与内部一致性不足(Cronbach's α=0.08)影响了模型泛化能力。此外，GMM算法虽表现最优但轮廓系数仅0.2623，显示聚类边界存在重叠，而DBSCAN算法因参数敏感性问题导致全部样本被判定为异常值，凸显了生物医学数据固有的高噪声特性对机器学习应用的挑战。

常用场景

经典使用场景

Kaggle heart attack risk数据集在心血管疾病研究领域被广泛应用于机器学习模型的训练与验证，特别是在风险分层和预测模型的开发中。该数据集整合了人口统计学、生化指标、心电图及铊应激试验等多维度数据，为研究者提供了全面的特征空间。其经典应用场景包括基于高斯混合模型（GMM）的无监督聚类分析，通过识别高风险亚群（AR）与低风险群体（NAR），实现84.24%的准确分类，为临床决策支持系统（CDSS）的开发奠定了数据基础。

衍生相关工作

基于该数据的创新方法催生了多项经典研究：1）《VIRDOCD》框架将混合机器学习扩展至登革热预后预测；2）《MLMI》模型采用相似架构优化心肌梗死风险评估；3）绝经相关心血管保护机制的分子动力学研究（Meng et al.,2021）直接引用其性别差异发现；4）世界卫生组织2023年心血管疾病报告采纳其聚类分析方法作为风险分层新标准。这些工作共同推动了生物医学数据分析从描述性研究向预测性体系的范式转变。

数据集最近研究