Heart-UCI-Dataset

github2024-01-10 更新2024-05-31 收录

下载链接：

https://github.com/RoshanLPU/Heart-UCI-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据库包含76个属性，但所有已发表的实验都使用了其中的14个属性。特别是克利夫兰数据库是目前唯一被机器学习研究者使用的数据库。目标字段指的是患者心脏病的存在，其值从0（无）到4。

This database comprises 76 attributes, yet all published experiments have utilized only 14 of these. Notably, the Cleveland database is currently the sole one employed by machine learning researchers. The target field indicates the presence of heart disease in patients, with values ranging from 0 (none) to 4.

创建时间：

2019-04-20

原始信息汇总

Heart-UCI-Dataset 数据集概述

数据集基本信息

名称: Heart-UCI-Dataset
问题类型: 二元分类
领域: 健康、生物学
分类: 机器学习 > 分类、自然和物理科学 > 生物学、社会和社交科学 > 社会 > 健康

数据集内容

属性数量: 76个属性，常用14个
目标字段: 心脏疾病存在情况，整数值0（无）至4

常用属性信息

年龄
性别
胸痛类型 (4种值)
静息血压
血清胆固醇 (mg/dl)
空腹血糖 > 120 mg/dl
静息心电图结果 (值0,1,2)
最大心率
运动诱发心绞痛
运动相对静息的ST段压低
运动峰值ST段斜率
主要血管数量 (0-3) 荧光镜下着色
thal: 3 = 正常; 6 = 固定缺陷; 7 = 可逆缺陷

数据集来源与致谢

创建者:
1. 匈牙利心脏病学研究所, 布达佩斯: Andras Janosi, M.D.
2. 苏黎世大学医院, 瑞士: William Steinbrunn, M.D.
3. 巴塞尔大学医院, 瑞士: Matthias Pfisterer, M.D.
4. V.A. 医疗中心, 长滩和克利夫兰诊所基金会: Robert Detrano, M.D., Ph.D.
捐赠者: David W. Aha (aha @ ics.uci.edu) (714) 856-8779

数据集使用

研究重点: 区分心脏疾病的存在（值1,2,3,4）与不存在（值0）
探索方向: 寻找心脏数据中的其他趋势以预测心血管事件或发现心脏健康的明确指标

搜集汇总

数据集介绍

构建方式

Heart-UCI-Dataset 数据集的构建基于对心血管疾病相关特征的深入分析。该数据集源自多个医疗机构的合作，包括匈牙利心脏病研究所、苏黎世大学医院和巴塞尔大学医院等。原始数据包含76个属性，但经过筛选和处理，最终公开使用的子集为14个关键属性。这些属性涵盖了患者的年龄、性别、胸痛类型、血压、胆固醇水平等关键健康指标。数据集的目标变量是患者是否患有心脏病，其值从0（无心脏病）到4（不同程度的心脏病）。通过去除患者的敏感信息，如姓名和社会安全号码，确保了数据的匿名性和隐私保护。

特点

Heart-UCI-Dataset 数据集的主要特点在于其广泛的应用领域和丰富的特征集。该数据集不仅适用于机器学习中的二分类问题，还为心血管疾病的预测和诊断提供了详实的数据支持。其特征涵盖了从生理指标到临床症状的多个维度，使得研究者能够全面分析心脏病的潜在风险因素。此外，数据集的多样性和代表性使其在健康科学和生物学领域具有重要的研究价值。

使用方法

Heart-UCI-Dataset 数据集的使用方法多样，适用于多种机器学习任务。研究者可以通过加载数据集并进行预处理，提取关键特征并构建分类模型。常见的应用包括使用决策树、支持向量机或神经网络等算法进行心脏病预测。此外，数据集还支持特征重要性分析，如使用eli5、shap和pdp等工具可视化模型性能和关键特征。通过这些方法，研究者可以深入探索心脏病的预测模型，并发现潜在的临床应用价值。

背景与挑战

背景概述

Heart-UCI-Dataset是由匈牙利心脏病研究所、苏黎世大学医院、巴塞尔大学医院以及长滩和克利夫兰诊所基金会等多个机构合作创建的心脏病数据集。该数据集包含了76个属性，但研究者主要使用其中的14个属性进行分析。其核心研究问题在于通过这些属性来区分患者是否患有心脏病，目标值从0（无心脏病）到4（不同程度的心脏病）。该数据集自创建以来，已成为机器学习领域中用于心脏病分类研究的重要资源，尤其在二元分类任务中表现突出，对推动心血管疾病诊断的智能化具有重要意义。

当前挑战

Heart-UCI-Dataset在构建和应用过程中面临多项挑战。首先，数据集包含的属性较多，但实际研究中仅使用了14个属性，如何从众多属性中筛选出最具预测能力的特征是一个重要挑战。其次，心脏病诊断的复杂性要求模型能够准确区分不同程度的心脏病，而不仅仅是简单的二元分类。此外，数据集的样本量相对有限，如何在有限的数据中训练出泛化能力强的模型也是一个难题。最后，数据集的属性涉及多个医学领域，如何确保模型的解释性和可解释性，以便医生和研究人员能够理解和信任模型的预测结果，也是一大挑战。

常用场景

经典使用场景

Heart-UCI-Dataset在心血管疾病研究领域中，常被用于构建和评估二元分类模型，以预测患者是否患有心脏病。通过分析数据集中的14个关键特征，如年龄、性别、胸痛类型、血压等，研究者能够深入探索这些特征与心脏病之间的关联性，并利用机器学习算法进行模型训练与验证。

解决学术问题

该数据集解决了心血管疾病预测中的关键学术问题，即如何通过有限的临床数据准确预测心脏病的存在。通过提供丰富的患者特征数据，Heart-UCI-Dataset为研究者提供了一个标准化的实验平台，推动了心脏病预测模型的优化与验证，对提高诊断准确性和早期干预具有重要意义。

衍生相关工作

基于Heart-UCI-Dataset的研究衍生出了一系列经典工作，包括心脏病预测模型的优化、特征选择方法的改进以及跨领域数据融合的应用。这些工作不仅提升了心脏病预测的准确性，还为其他慢性疾病的预测研究提供了宝贵的经验和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集