Heart-UCI-Dataset

github2024-01-10 更新2024-05-31 收录

下载链接：

https://github.com/roshank1605A04/Heart-UCI-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据库包含76个属性，但所有已发表的实验都使用了一个包含14个属性的子集。特别地，克利夫兰数据库是目前唯一被机器学习研究者使用的数据库。目标字段指的是患者心脏疾病的存在，其值从0（无存在）到4。

This database comprises 76 attributes, yet all published experiments have utilized a subset containing 14 attributes. Notably, the Cleveland database is currently the sole database employed by machine learning researchers. The target field indicates the presence of heart disease in patients, with values ranging from 0 (no presence) to 4.

创建时间：

2019-04-20

原始信息汇总

Heart-UCI-Dataset 概述

数据集基本信息

分类：机器学习 > 分类, 二元分类
领域：健康, 生物学
问题类型：二元分类

数据集内容

属性数量：14个关键属性
属性详情：
- 1. 年龄
- 1. 性别
- 1. 胸痛类型（4种值）
- 1. 静息血压
- 1. 血清胆固醇（mg/dl）
- 1. 空腹血糖 > 120 mg/dl
- 1. 静息心电图结果（值0,1,2）
- 1. 最大心率
- 1. 运动诱发的胸痛
- 1. 运动相对静息的ST段压低（oldpeak）
- 1. 峰值运动ST段的斜率
- 1. 主要血管数量（0-3）
- 1. 缺血性改变类型（3=正常, 6=固定缺陷, 7=可逆缺陷）

数据集背景

数据库来源：Cleveland数据库，由匈牙利心脏病研究所和多家医院提供。
数据集目的：区分心脏病的存在（值1,2,3,4）与不存在（值0）。

数据集使用

研究重点：分析导致心脏病的特征，并通过eli5, shap和pdp可视化模型性能和重要特征。
研究建议：探索心脏数据中的其他趋势，以预测心血管事件或发现心脏健康的明确指标。

搜集汇总

数据集介绍

构建方式

Heart-UCI-Dataset的构建基于多个医疗机构的临床数据，主要包括匈牙利心脏病研究所、苏黎世大学医院、巴塞尔大学医院以及美国退伍军人医疗中心和克利夫兰诊所的数据。数据集最初包含76个属性，但研究者们通常使用其中的14个关键属性进行分析。为了保护患者隐私，数据集中的个人身份信息如姓名和社会安全号码已被替换为虚拟值。克利夫兰数据库是唯一经过处理的文件，其余四个未处理的原始文件也包含在数据集中。

使用方法

Heart-UCI-Dataset的使用方法主要围绕机器学习模型的训练与评估展开。研究者可以利用该数据集进行二分类任务，预测患者是否患有心脏病。数据集中的属性信息可用于特征工程，结合eli5、shap和pdp等工具进行模型解释和可视化，以识别对预测结果影响最大的特征。此外，数据集还提供了未处理的原始文件，供研究者进行更深入的分析和探索。通过该数据集，研究者能够发现心脏健康的相关趋势，并为心血管事件的预测提供科学依据。

背景与挑战

背景概述

Heart-UCI-Dataset是由匈牙利心脏病研究所、苏黎世大学医院、巴塞尔大学医院以及美国退伍军人医疗中心和克利夫兰诊所基金会的研究人员共同创建的一个关于心脏病的医学数据集。该数据集最初发布于1988年，主要用于研究心脏病的预测与诊断。数据集包含76个属性，但大多数机器学习研究仅使用其中的14个关键属性。其核心研究问题是通过患者的生理和临床特征，预测是否存在心脏病。该数据集在医学和机器学习领域具有重要影响力，为心脏病预测模型的开发与评估提供了宝贵的数据支持。

当前挑战

Heart-UCI-Dataset在解决心脏病预测问题时面临多重挑战。首先，数据集中的样本量相对有限，可能导致模型训练时的过拟合问题。其次，尽管数据集包含多个属性，但实际研究中仅使用部分属性，可能忽略了一些潜在的重要特征。此外，数据集中某些属性的定义较为复杂，如心电图结果和ST段斜率，增加了特征提取和解释的难度。在构建过程中，研究人员还需处理数据隐私问题，如移除患者的个人信息，这在一定程度上限制了数据的完整性和可用性。这些挑战共同影响了数据集在心脏病预测研究中的广泛应用和模型性能的提升。

常用场景

经典使用场景

Heart-UCI-Dataset在机器学习领域中被广泛应用于心脏疾病的预测研究。该数据集通过14个关键属性，如年龄、性别、胸痛类型等，为研究人员提供了丰富的特征信息，用于构建和评估分类模型。特别是在二分类任务中，该数据集被用于区分患者是否患有心脏病，成为该领域研究的基准数据集之一。

解决学术问题

Heart-UCI-Dataset解决了心脏疾病预测中的关键学术问题。通过提供高质量的临床数据，研究人员能够深入分析不同特征对心脏病的影响，并开发出更精确的预测模型。该数据集的使用显著提升了心脏病早期诊断的准确性，为相关医学研究提供了重要的数据支持。

实际应用

在实际应用中，Heart-UCI-Dataset被广泛应用于医疗健康领域。基于该数据集开发的预测模型能够辅助医生进行心脏病的早期筛查和诊断，从而为患者提供更及时的治疗方案。此外，该数据集还被用于健康管理系统的开发，帮助个人监测和管理心血管健康。

数据集最近研究