Cleveland数据库

github2024-01-10 更新2024-05-31 收录

下载链接：

https://github.com/sharmaroshan/Heart-UCI-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据库包含76个属性，但所有已发表的实验均使用其中的14个属性。特别地，Cleveland数据库是目前唯一被机器学习研究者使用的数据库。目标字段表示患者心脏病的存在，其值从0（无存在）到4。

This database comprises 76 attributes, yet all published experiments utilize only 14 of these. Notably, the Cleveland database is currently the sole one employed by machine learning researchers. The target field indicates the presence of heart disease in patients, with values ranging from 0 (no presence) to 4.

创建时间：

2019-04-20

原始信息汇总

Heart-UCI-Dataset 概述

数据集类型

机器学习 > 分类
问题类型 > 二元分类

领域

社会与社会科学 > 社会 > 健康
自然与物理科学 > 生物学

数据集描述

上下文

包含76个属性，常用14个属性进行研究。
主要使用Cleveland数据库进行机器学习研究。
目标字段表示患者心脏病的存在，值从0（无）到4。

内容

属性信息

年龄
性别
胸痛类型（4种值）
静息血压
血清胆固醇（mg/dl）
空腹血糖 > 120 mg/dl
静息心电图结果（值0,1,2）
最大心率
运动诱发的胸痛
运动相对静息的ST段压低（oldpeak）
运动峰值ST段的斜率
荧光镜下着色的大血管数（0-3）
三磷酸腺苷（thal）：3 = 正常；6 = 固定缺陷；7 = 可逆缺陷

数据处理

患者姓名和社保号已替换为虚拟值。
包含处理过的Cleveland数据库文件及未处理的四个文件。

致谢

数据集由匈牙利心血管研究所、苏黎世大学医院等机构创建。
捐赠者：David W. Aha (aha @ ics.uci.edu)

搜集汇总

数据集介绍

构建方式

Cleveland数据库的构建源于多个医疗机构的合作，包括匈牙利心脏病研究所、苏黎世大学医院、巴塞尔大学医院以及美国退伍军人医疗中心和克利夫兰诊所基金会。该数据集最初包含76个属性，但研究人员通常使用其中的14个关键属性进行实验。患者的社会安全号码等敏感信息已被移除，取而代之的是虚拟值，以确保数据的匿名性和安全性。数据集经过处理，保留了克利夫兰数据库的版本，同时提供了四个未处理的原始文件。

使用方法

Cleveland数据库主要用于二元分类任务，旨在区分患者是否患有心脏病。研究人员可通过加载数据集，提取14个关键属性，并利用机器学习算法进行模型训练与评估。数据集还可用于探索心脏病与其他生理指标之间的潜在关联，或预测特定心血管事件的发生。通过结合可视化工具如eli5、shap和pdp，用户可以深入分析模型性能及特征重要性，从而为心脏病研究提供科学依据。

背景与挑战

背景概述

Cleveland数据库是心脏病研究领域的重要数据集，由匈牙利心脏病研究所、苏黎世大学医院、巴塞尔大学医院以及美国退伍军人医疗中心和克利夫兰诊所基金会的研究人员共同创建。该数据集最初发布于20世纪80年代，旨在通过机器学习方法预测心脏病的发生。数据集包含76个属性，但大多数研究仅使用其中的14个关键属性，如年龄、性别、胸痛类型、静息血压等。Cleveland数据库在医学和机器学习领域具有广泛影响力，为心脏病预测模型的开发提供了重要数据支持。

当前挑战

Cleveland数据库在应用过程中面临多重挑战。首先，数据集的样本量相对较小，可能导致模型泛化能力不足。其次，数据集中存在缺失值和噪声，增加了数据预处理的复杂性。此外，尽管数据集包含多个属性，但许多研究仅使用其中的14个属性，可能忽略了其他潜在的重要特征。在构建过程中，研究人员还需处理患者隐私问题，如移除个人身份信息，这在一定程度上限制了数据的完整性和可用性。这些挑战使得在心脏病预测领域开发高效、准确的模型变得更具难度。

常用场景

经典使用场景

Cleveland数据库在医学研究领域被广泛用于心脏疾病的预测与分析。该数据集包含了14个关键属性，如年龄、性别、胸痛类型等，这些属性为机器学习模型提供了丰富的特征信息。研究人员通常利用这些数据进行二分类任务，以区分患者是否患有心脏病。通过该数据集，研究者能够深入探索心脏病的潜在风险因素，并开发出高效的预测模型。

解决学术问题

Cleveland数据库为心脏疾病的早期诊断和预测提供了重要的数据支持。通过分析该数据集，研究人员能够识别出与心脏病相关的关键特征，如血清胆固醇水平、最大心率等。这些发现不仅有助于理解心脏病的发病机制，还为开发精准的医疗诊断工具提供了科学依据。该数据集的应用显著提升了心脏病研究的准确性和可靠性。

实际应用

在实际医疗场景中，Cleveland数据库被用于开发心脏病风险评估工具。医疗机构可以利用该数据集训练机器学习模型，帮助医生快速识别高风险患者，并制定个性化的治疗方案。此外，该数据集还被用于公共卫生研究，通过分析大规模人群的心脏健康数据，为制定预防策略提供数据支持。

数据集最近研究