Stroke_Prediction_Dataset
收藏Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/nadiCR7/Stroke_Prediction_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在基于人口统计、健康和生活方式参数预测患者中风的可能性。中风是全球死亡和长期残疾的主要原因,早期识别高风险个体可显著改善预防策略和临床结果。数据集来源于Kaggle,包含5,110行和12个特征,目标变量为stroke(1表示患者有中风,0表示无中风)。关键特征分为数值型(如年龄、BMI、平均血糖水平)和类别型(如性别、高血压、心脏病、婚姻状况、工作类型、居住类型、吸烟状况)。数据清洗过程中删除了无意义的id列,对BMI列的缺失值进行了均值填充,并保留了BMI和血糖水平的异常值,因其具有临床意义。数据集中健康人群占比95.1%,中风患者占4.9%,存在明显的类别不平衡。分析显示年龄、高血压、心脏病和高血糖水平是中风的重要预测因素,而吸烟状况和BMI的影响因数据缺失难以确定。
创建时间:
2026-03-29
原始信息汇总
卒中预测数据集概述
数据集来源
- 原始来源: Kaggle – 由 fedesoriano 提供的 Stroke Prediction Dataset
- 数据集地址: https://huggingface.co/datasets/nadiCR7/Stroke_Prediction_Dataset
数据集基本信息
- 数据规模: 5,110 行 × 12 个特征
- 目标变量:
stroke(1 = 患者发生过卒中,0 = 未发生卒中)
特征分类
数值型特征
- age (年龄)
- bmi (身体质量指数)
- avg glucose level (平均血糖水平)
- stroke (卒中)
分类型特征
- gender (性别)
- hypertension (高血压)
- heart disease (心脏病)
- ever married (婚姻状况)
- work type (工作类型)
- Residence type (居住类型)
- smoking status (吸烟状况)
数据预处理与清洗
已删除特征
id列已被删除,原因为该列仅为每条记录的唯一标识符,不包含与卒中预测相关的有意义信息。
缺失值处理
bmi列包含 201 个缺失值。- 采用 均值插补法 进行处理,使用该列其余数据的平均值填充缺失值。
异常值处理
- BMI 异常值: 被识别但予以保留。原因为高 BMI 值具有临床意义,且与包括卒中在内的健康风险增加密切相关。
- 血糖水平异常值: 被识别但予以保留。原因为极端血糖水平是医学相关指标,尤其在卒中风险背景下。
- 性别变量: 识别出“Other”类别(仅1个样本)并将其从数据中移除。
数据观察与局限性
- 吸烟状况: 大量记录被归类为 ‘Unknown’。由于该类别中缺失信息频率很高,因此关于吸烟状况对卒中风险影响的任何结论都需谨慎看待。
数据分布关键洞察
- 卒中患者比例:
- 健康(未发生卒中): 95.1%
- 患者(发生卒中): 4.9%
- 数值特征相关性:
- 年龄与 BMI 之间存在相关性(0.33)。
- 年龄与血糖水平之间存在相关性(0.24)。
- 变量分布:
- 年龄: 包含所有年龄段人群,峰值在 50-60 岁区间。
- BMI: 数据主要集中在 20 到 40 之间,存在向右延伸的“长尾”。
- 平均血糖水平: 主要峰值在 80-100(“正常”范围),次要峰值在 200-230(“不健康”人群子集)。
- 卒中: 绝大多数样本未发生卒中。
研究问题与结论
-
年龄与卒中发生率是否相关? 是。
- 数据显示,经历过卒中的人群年龄显著大于未经历过的人群。
-
BMI 和平均血糖水平是否是卒中的重要预测因子? 部分肯定。
- 血糖水平与卒中显示出明确的相关性。
- BMI 显示出轻微的关联,但数据尚无定论。
-
吸烟状况是否会增加患卒中的可能性? 尚无定论。
- 由于“未知”类别数据量很大,难以确定吸烟是否导致卒中。
-
患有心脏病和高血压的人是否更可能患卒中? 是。
- 数据显示,高血压和心脏病是卒中的常见原因。
核心洞察总结
- 年龄似乎是卒中风险的主要决定因素,老年人更可能经历卒中。
- 心脏病是一个主要因素,与较高的卒中可能性密切相关。
- 高血压的存在也是一个重要的风险指标,增加了卒中发生的概率。
- 高血糖水平可能增加卒中风险,提示血糖调节受损与卒中之间存在可能的联系。
- 较高的 BMI 与卒中略有关联,但数据尚无定论。
- 在此数据集中未发现吸烟与卒中之间的明确联系。然而,由于近 30% 的值为“未知”,数据可能不足以得出确凿结论。
总体说明
- 该数据集中仅有 5% 的个体发生过卒中。由于这种显著的类别不平衡,所得洞察可能无法完美代表一般人群。所有分析和结论均严格基于此特定数据集中发现的模式。
- 卒中风险主要由个人的年龄和身体健康状况驱动。
- 年龄是最显著的因素,风险随患者年龄增长而急剧增加。紧随其后的是高血压、心脏病和高血糖水平,这三者在此数据集中都是卒中发生的强预测因子。
- 对于吸烟状况和 BMI 等变量,大量缺失数据使得难以得出确凿结论。
- 数据表明,卒中是一种综合病症,衰老与不良生理状况的结合创造了最高水平的风险。
相关图表链接
- BMI 异常值检测图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/yjPihFZNYuodrA_ISbmHD.png
- 血糖水平异常值检测图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/7D8Qx_OUK3TKcxhHq6cDQ.png
- 性别变量分布图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/AlkTwRjQXZbpOh-pwVhVW.png
- 吸烟状况分布图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/CiLZhoSwfj9OcmKaBlt0H.png
- 健康与患者比例图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/ZjiPWWomEeB6Nr2hWLlnt.png
- 数值特征相关性矩阵图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/XAj7q_uQc_T0zGsm-_RyL.png
- 变量分布直方图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/gpR6bazbK6R43o3Cqm5dv.png
- 年龄与卒中关系图1: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/-_q0i10xRfgK7QwesB9-W.png
- 年龄与卒中关系图2: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/EZhaGZU0CjNv2RyrKIjSS.png
- BMI/血糖水平与卒中关系图1: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/DECiI2pOyvxJu8O8CVLAT.png
- BMI/血糖水平与卒中关系图2: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/wp9DuXTbQ8IJnyAFvel4e.png
- 吸烟状况与卒中关系图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/KeUPqDP7VtR8o4pmA0oHE.png
- 心脏病与卒中关系图1: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/etxDLbYZwNohE__LU6oZp.png
- 心脏病与卒中关系图2: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/Z8e5w-SxQKbqPfKwIYfjN.png
- 高血压与卒中关系图: https://cdn-uploads.huggingface.co/production/uploads/69bfc5757694dbfb318899cd/5AcamtYfKaMt8B26muawT.png
搜集汇总
数据集介绍

构建方式
在脑血管疾病研究领域,数据集的构建质量直接影响风险预测模型的可靠性。本数据集源自Kaggle平台,由贡献者fedesoriano整理发布,共包含5,110条患者记录与12项特征。数据预处理过程中,无关的标识符列被剔除,而对身体质量指数(BMI)字段的缺失值则采用均值填充法予以补全。针对数值型特征中的异常值,如极高BMI与血糖水平,基于其临床意义予以保留,以确保数据能够全面反映极端生理指标与卒中风险之间的潜在关联。类别变量中的低频类别则被移除,以简化分析结构。
特点
该数据集在特征构成上体现了多维度健康信息的整合。它涵盖了人口统计学变量、基础健康状况与生活方式指标,具体包括年龄、性别、高血压病史、心脏病史、婚姻状况、工作类型、居住类型、吸烟状况以及BMI和平均血糖水平等数值特征。一个显著特点是数据存在类别不平衡,卒中患者占比仅为4.9%,这要求在使用时需采用相应的采样或加权策略。此外,部分特征如吸烟状况存在大量‘未知’记录,这在一定程度上限制了该变量在风险归因分析中的确定性。数值特征间的相关性分析揭示了年龄与BMI、血糖水平之间存在弱到中等的正相关关系。
使用方法
该数据集主要用于开发与评估卒中风险预测模型,服务于临床辅助决策与公共卫生研究。使用者可将其加载至数据分析环境,如Python的Pandas库,进行进一步的探索性分析。鉴于其类别不平衡特性,建议在构建分类模型前采用过采样、欠采样或代价敏感学习等方法。特征工程阶段可考虑对类别变量进行编码,并对数值变量进行标准化处理。数据集适用于逻辑回归、决策树、随机森林以及梯度提升等机器学习算法,旨在从多维特征中学习卒中事件的预测模式。模型评估应重点关注召回率、精确率及AUC-ROC曲线等指标,以准确衡量其在识别高危个体方面的效能。
背景与挑战
背景概述
卒中预测数据集由研究者fedesoriano于Kaggle平台发布,旨在利用人口统计学、健康与生活方式参数预测患者发生卒中的风险。卒中作为全球范围内导致死亡与长期残疾的主要病因,其早期风险识别对于优化预防策略与改善临床结局具有至关重要的意义。该数据集涵盖了5110个样本与12个特征,核心研究问题聚焦于通过机器学习模型甄别高危个体,从而为公共卫生干预与个性化医疗提供数据支持。自公开以来,该数据集已成为医学信息学与健康数据分析领域的重要基准,推动了风险预测模型在脑血管疾病中的应用研究。
当前挑战
该数据集所应对的核心领域挑战在于卒中风险预测中的类别不平衡问题,其中卒中阳性样本仅占4.9%,导致模型易偏向多数类,影响其泛化能力与临床实用性。构建过程中的挑战则体现在数据质量层面:BMI特征存在201个缺失值,需通过均值插补处理;吸烟状态特征中大量‘未知’类别的存在削弱了其统计效力;同时,年龄、BMI与血糖水平的异常值虽具临床意义但增加了建模复杂度。这些数据层面的局限要求研究者在特征工程与模型评估中采用精细策略,以克服信息不完整与分布偏斜带来的干扰。
常用场景
经典使用场景
在临床医学与公共卫生研究领域,卒中预测数据集常被用于构建和验证机器学习模型,以识别高危个体。该数据集整合了人口统计学、健康指标及生活方式等多维度特征,为研究人员提供了一个标准化的基准平台。通过逻辑回归、随机森林或梯度提升等算法,学者们能够探索年龄、高血压、心脏病等关键风险因素与卒中发生率之间的复杂关联,进而优化早期预警系统的预测精度。
衍生相关工作
围绕该数据集,已衍生出一系列经典的机器学习与数据挖掘研究。众多工作聚焦于处理其固有的类别不平衡问题,采用了过采样、代价敏感学习等先进技术以提升模型泛化能力。同时,研究者们开发了融合特征工程与集成学习的创新框架,深入挖掘隐含的风险模式。这些成果不仅丰富了卒中预测的方法学体系,也为其他慢性病风险建模提供了可借鉴的技术范式。
数据集最近研究
最新研究方向
在脑卒中预测领域,基于人口统计学、健康与生活方式参数的数据集研究正聚焦于解决类别不平衡与特征不确定性等核心挑战。前沿探索致力于运用集成学习与深度学习技术,如XGBoost与神经网络,以提升模型对高龄、高血压及心脏病等关键风险因素的识别精度。同时,研究热点围绕缺失数据(如吸烟状态)的智能填补与多模态数据融合展开,旨在构建更稳健的预测系统,为临床早期干预与个性化预防策略提供数据驱动支持,推动公共卫生管理向精准化迈进。
以上内容由遇见数据集搜集并总结生成



