medical_examination.csv
收藏github2024-07-12 更新2024-07-17 收录
下载链接:
https://github.com/lkerroum/medical_data_visualizer
下载链接
链接失效反馈官方服务:
资源简介:
该数据集的行代表患者,列代表身体测量信息、各种血液检测结果和生活方式选择。数据集用于探索心血管疾病与身体测量、血液标志物和生活方式选择之间的关系。
Each row of this dataset denotes a patient, and each column corresponds to physical measurements, a variety of blood test results, and lifestyle choices. This dataset is designed to investigate the associations between cardiovascular disease and physical measurements, blood biomarkers, as well as lifestyle choices.
创建时间:
2024-07-11
原始信息汇总
数据集描述
该数据集用于通过matplotlib、seaborn和pandas对医疗检查数据进行可视化和计算。数据集中的行代表患者,列代表身体测量、各种血液检测结果和生活方式选择等信息。数据集用于探索心血管疾病与身体测量、血液指标和生活方式选择之间的关系。
文件名
- medical_examination.csv
数据字段
| 特征 | 变量类型 | 变量 | 值类型 |
|---|---|---|---|
| 年龄 | 客观特征 | age | 整数(天) |
| 身高 | 客观特征 | height | 整数(厘米) |
| 体重 | 客观特征 | weight | 浮点数(千克) |
| 性别 | 客观特征 | sex | 分类代码 |
| 收缩压 | 检查特征 | ap_hi | 整数 |
| 舒张压 | 检查特征 | ap_lo | 整数 |
| 胆固醇 | 检查特征 | cholesterol | 1: 正常, 2: 高于正常, 3: 远高于正常 |
| 葡萄糖 | 检查特征 | gluc | 1: 正常, 2: 高于正常, 3: 远高于正常 |
| 吸烟 | 主观特征 | smoke | 二进制 |
| 酒精摄入 | 主观特征 | alco | 二进制 |
| 体育活动 | 主观特征 | active | 二进制 |
| 心血管疾病的有无 | 目标变量 | cardio | 二进制 |
任务
- 创建一个类似于
examples/Figure_1.png的图表,展示cholesterol、gluc、alco、active和smoke变量在不同面板中患者的心血管疾病状态(cardio=1和cardio=0)的计数。 - 在数据中添加一个
overweight列,通过计算BMI来确定一个人是否超重。如果BMI > 25,则该人超重,使用值0表示不超重,值1表示超重。 - 标准化数据,使0始终表示良好,1始终表示不良。如果
cholesterol或gluc的值为1,则将其值设为0;如果值大于1,则将其值设为1。 - 将数据转换为长格式,并使用seaborn的
catplot()创建一个图表,展示分类特征的值计数。数据应按Cardio分割,每个cardio值对应一个图表,图表应类似于examples/Figure_1.png。 - 清理数据,过滤掉以下表示错误数据的病人段:
- 舒张压高于收缩压(保留正确的数据,条件为
(df[ap_lo] <= df[ap_hi])) - 身高低于第2.5百分位(保留正确的数据,条件为
(df[height] >= df[height].quantile(0.025))) - 身高高于第97.5百分位
- 体重低于第2.5百分位
- 体重高于第97.5百分位
- 舒张压高于收缩压(保留正确的数据,条件为
- 使用数据集创建一个相关矩阵,并使用seaborn的
heatmap()绘制相关矩阵图。遮罩上三角部分,图表应类似于examples/Figure_2.png。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于一系列医疗检查数据,涵盖了患者的身体测量、血液检测结果以及生活方式选择等多维度信息。数据集中的每一行代表一个患者,而每一列则对应于特定的医疗指标或生活方式特征。通过这种方式,数据集旨在提供一个全面的视角,以探索心血管疾病与各种生理和行为因素之间的关系。
特点
该数据集的显著特点在于其多维度的数据结构,不仅包括了传统的生理指标如年龄、身高和体重,还涵盖了血液检测结果如胆固醇和血糖水平,以及生活方式选择如吸烟和饮酒。此外,数据集还特别设计了一个目标变量,用于标识患者是否患有心血管疾病,从而为相关研究提供了明确的研究方向。
使用方法
使用该数据集时,用户可以通过多种方式进行数据分析和可视化。例如,可以利用pandas和seaborn库来创建分类图表,展示不同心血管疾病状态下的生活方式和生理指标的分布情况。此外,数据集还提供了清理和标准化数据的指南,如计算BMI值以确定超重状态,以及通过相关矩阵来分析各变量之间的关联性。
背景与挑战
背景概述
医疗检查数据集(medical_examination.csv)是由一系列医学检查中收集的数据构成,旨在探索心血管疾病与身体测量、血液标志物及生活方式选择之间的关系。该数据集由多个特征组成,包括年龄、身高、体重、性别、血压、胆固醇水平、葡萄糖水平、吸烟、饮酒、体育活动以及心血管疾病的存在与否。这些数据为研究人员提供了一个全面的视角,以分析和预测心血管疾病的风险因素。通过使用matplotlib、seaborn和pandas等工具,研究人员可以深入挖掘这些数据,揭示潜在的健康趋势和风险模式。
当前挑战
该数据集在构建和分析过程中面临多项挑战。首先,数据清理是关键步骤,需过滤出如血压测量错误、身高和体重异常值等不准确数据。其次,数据标准化和转换为长格式以适应可视化需求,增加了处理的复杂性。此外,创建相关性矩阵和热图以揭示变量间的关系,需要精确的统计分析和可视化技术。最后,确定超重状态和标准化胆固醇及葡萄糖值,要求对医学知识和数据处理技能有深入理解。这些挑战共同构成了该数据集分析过程中的主要难点。
常用场景
经典使用场景
在医学研究领域,medical_examination.csv数据集被广泛用于探索心血管疾病与身体测量、血液标志物及生活方式选择之间的关系。通过分析患者的年龄、身高、体重、血压、胆固醇水平、血糖水平、吸烟习惯、饮酒习惯和身体活动等变量,研究人员能够构建复杂的模型,以预测和评估心血管疾病的风险。这种多维度的数据分析不仅有助于识别潜在的风险因素,还能为个性化医疗提供科学依据。
实际应用
在实际应用中,medical_examination.csv数据集被用于开发和验证各种健康管理工具和应用程序。例如,基于该数据集的算法可以集成到智能手表或移动应用中,实时监测用户的健康状况并提供个性化的健康建议。此外,医疗机构也可以利用这些数据进行患者风险评估,制定更为精准的预防和治疗方案,从而提高医疗服务的质量和效率。
衍生相关工作
基于medical_examination.csv数据集,已衍生出多项经典研究工作。例如,有研究利用该数据集开发了基于机器学习的心血管疾病风险预测模型,显著提高了预测的准确性。此外,还有研究探讨了生活方式因素对心血管疾病的影响,为公共卫生政策的制定提供了科学依据。这些衍生工作不仅丰富了医学数据分析的方法论,也为实际应用提供了有力的支持。
以上内容由遇见数据集搜集并总结生成



