Cardiovascular Risk Prediction Dataset

github2024-08-25 更新2024-08-28 收录

下载链接：

https://github.com/stoicsapien1/HeartSafe-Evaluating-CHD-Risk

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预测10年内心血管疾病的风险，包含多个与健康相关的特征，如年龄、性别、胆固醇水平和吸烟习惯等。数据来源于一项心血管研究，旨在通过机器学习技术识别高风险个体，以便采取预防措施。

This dataset is designed for predicting the 10-year risk of cardiovascular disease, and it contains multiple health-related features including age, gender, cholesterol levels, smoking habits, and other relevant indicators. Derived from a cardiovascular research study, the dataset aims to identify high-risk individuals via machine learning techniques to facilitate the implementation of targeted preventive measures.

创建时间：

2024-08-24

原始信息汇总

心血管风险预测数据集

概述

该数据集用于预测未来10年内心血管疾病（CVD）的风险，基于多种健康相关特征。数据集来源于一项心血管研究，包含多个风险因素的信息。

目标

主要任务是预测患者在未来10年内是否会有冠状动脉疾病（CHD）的风险。目标是构建一个预测模型，使用患者的 demographics、行为和病史数据，将患者分类为高风险或低风险。

分类类别

高风险 (1)：患者在未来10年内有高概率发展CHD。
低风险 (0)：患者在未来10年内有低概率发展CHD。

变量描述

数据集包含以下属性，分为 demographic、behavioral 和 medical 因素：

Demographic 因素

Sex：患者性别，编码为 "M"（男性）或 "F"（女性）。
Age：患者年龄，连续变量。

Behavioral 因素

is_smoking：患者是否为当前吸烟者，记录为 "YES" 或 "NO"。
Cigs Per Day：患者平均每天吸烟数量，连续变量。

Medical History 因素

BP Meds：患者是否服用降压药（名义变量）。
Prevalent Stroke：患者是否有过中风史（名义变量）。
Prevalent Hyp：患者是否为高血压（名义变量）。
Diabetes：患者是否患有糖尿病（名义变量）。

Current Medical 因素

Tot Chol：总胆固醇水平，连续变量。
Sys BP：收缩压，连续变量。
Dia BP：舒张压，连续变量。
BMI：体重指数，连续变量。
Heart Rate：心率，连续变量。
Glucose：血糖水平，连续变量。

预测变量（目标）

10-year risk of CHD：目标变量，指示患者是否有10年冠状动脉疾病风险，二进制编码（1表示“是”，0表示“否”）。

数据预处理

数据检查

数据集形状：3390个样本，16列。
数据集信息：每个特征的详细信息，包括数据类型和缺失值。
检查重复项：未发现重复行。

缺失值分析

缺失值列：
- education：2.57% 缺失
- cigsPerDay：0.65% 缺失
- BPMeds：1.30% 缺失
- totChol：1.12% 缺失
- BMI：0.41% 缺失
- heartRate：0.03% 缺失
- glucose：8.97% 缺失

数据清洗

删除空值：
- 删除缺失数据少于5%的特征中的空值行。
- 使用中位数填充 glucose 列中的缺失值。
异常值处理：
- 使用箱线图识别数值特征中的异常值。
- 应用四分位距（IQR）方法限制异常值。

探索性数据分析（EDA）

单变量分析

数值特征：
- 使用直方图和KDE图可视化数值特征的分布。
- 发现 glucose 呈右偏分布，表明潜在异常值。
分类特征：
- 使用计数图了解分类特征的分布。

异常值分析

箱线图：
- 为每个数值特征生成箱线图以可视化异常值的存在。

特征工程

标签编码

使用标签编码将分类变量转换为数值：
- sex：将 "M" 映射为 1，"F" 映射为 0。
- is_smoking：将 "YES" 映射为 1，"NO" 映射为 0。

特征缩放

应用 StandardScaler 对数值特征进行标准化，确保所有特征处于同一尺度。

建模

模型选择

考虑的模型包括：
- 逻辑回归
- 随机森林
- 决策树

模型评估

使用的评估指标：
- 准确性
- 精确度
- 召回率
- F1-Score

结果

最终模型的性能基于选定的指标进行评估。
结果表明，该模型有效地预测了10年心血管疾病风险。

结论

该项目成功实施了一个机器学习管道，基于多种健康特征预测心血管疾病风险。模型的预测结果有助于识别高风险个体，并可能指导预防性医疗措施。

搜集汇总

数据集介绍

构建方式

该数据集源自一项心血管疾病研究，旨在通过多种健康相关特征预测患者未来10年的心血管疾病风险。数据集的构建过程包括从研究中提取关键健康指标，如年龄、性别、胆固醇水平、吸烟习惯等，并将其整理为结构化数据。此外，数据集还涵盖了患者的医疗历史和当前健康状况，如是否服用血压药物、是否曾患中风、是否患有高血压或糖尿病等。最终，数据集包含3390个样本和16个特征列，每个样本代表一个患者的详细健康信息。

使用方法

使用该数据集进行心血管疾病风险预测时，首先需进行数据预处理，包括缺失值处理和异常值检测。随后，通过特征工程将分类变量转换为数值形式，并进行特征缩放以确保模型训练的稳定性。在模型选择阶段，可考虑使用逻辑回归、随机森林或决策树等算法。最后，通过交叉验证和模型评估指标如准确率、精确率、召回率和F1分数来评估模型的性能。

背景与挑战

背景概述

心血管疾病是全球范围内导致死亡的主要原因之一。为了有效预防和治疗这些疾病，识别高风险个体至关重要。Cardiovascular Risk Prediction Dataset由一个心血管研究项目衍生而来，旨在通过机器学习技术预测患者在未来10年内患心血管疾病的风险。该数据集包含了多个与健康相关的特征，如年龄、性别、胆固醇水平和吸烟习惯等。通过这些特征，研究人员能够构建预测模型，从而在早期阶段识别出潜在的高风险患者，进而采取相应的预防措施。这一数据集的创建不仅为心血管疾病的风险评估提供了新的工具，还为相关领域的研究提供了宝贵的数据支持。

当前挑战

Cardiovascular Risk Prediction Dataset在构建和应用过程中面临多项挑战。首先，数据集中存在一定比例的缺失值，特别是在教育、吸烟习惯和血糖水平等特征中，这需要通过数据清洗和插值方法进行处理。其次，数据中的异常值和偏态分布可能影响模型的准确性，因此需要进行适当的异常值处理和特征工程。此外，由于心血管疾病的复杂性，单一模型可能难以捕捉所有相关因素，因此模型的选择和评估也成为一个重要挑战。最后，如何确保模型的泛化能力和实际应用中的有效性，也是该数据集在实际应用中需要解决的问题。

常用场景

经典使用场景

在心血管疾病风险预测领域，Cardiovascular Risk Prediction Dataset 被广泛用于构建和验证预测模型。该数据集通过整合患者的年龄、性别、吸烟习惯、胆固醇水平等多维度健康特征，为研究人员提供了一个全面的视角来评估个体在未来十年内患冠状动脉疾病的风险。通过机器学习算法，如逻辑回归、随机森林和决策树，研究人员能够训练出高效的风险分类模型，从而实现对高风险和低风险患者的精准区分。

解决学术问题

Cardiovascular Risk Prediction Dataset 解决了心血管疾病早期风险评估的关键学术问题。通过提供多维度的健康数据，该数据集使得研究人员能够深入探索不同风险因素对心血管疾病的影响，从而推动相关领域的研究进展。此外，该数据集的应用还促进了机器学习技术在医疗健康领域的实际应用，为个性化医疗和预防性治疗提供了科学依据。

实际应用

在实际应用中，Cardiovascular Risk Prediction Dataset 为医疗机构提供了强大的工具，帮助医生和健康管理专家识别潜在的高风险患者。通过预测模型，医疗机构可以提前采取干预措施，如生活方式调整、药物治疗等，从而有效降低心血管疾病的发病率和死亡率。此外，该数据集的应用还支持公共卫生政策的制定，为大规模健康筛查和预防计划提供数据支持。

数据集最近研究