HDD Dataset, BIG-Dataset, CD Dataset|心脏疾病检测数据集|机器学习数据集
收藏arXiv2024-12-06 更新2024-12-10 收录
下载链接:
http://arxiv.org/abs/2412.04792v1
下载链接
链接失效反馈资源简介:
本研究引入了一个新的心脏疾病检测数据集,名为HDD、BIG-Dataset和CD Dataset,这些数据集包含了来自政府医院、诊断中心和在线档案的45,779条准确的患者记录。数据集涵盖了症状、检查技术和风险因素,旨在通过先进的机器学习技术提高心脏疾病的检测和分类准确性。创建过程包括从多个来源收集数据并进行数据增强,以确保数据集的全面性和准确性。这些数据集主要应用于心脏疾病的早期检测和分类,旨在通过精确的诊断和个性化医疗建议来降低死亡率并改善临床结果。
提供机构:
孟加拉国陆军科技大学
创建时间:
2024-12-06
AI搜集汇总
数据集介绍

构建方式
该研究通过从政府医院、诊断中心和经过验证的在线资源中收集数据,构建了HDD(Heart Disease Detection)、BIG-Dataset和CD(Combined Dataset)三个数据集。HDD数据集包含了27种心脏疾病的19种常见症状、检查技术、风险因素和诊断信息,涵盖了心脏疾病的多种模式。BIG-Dataset则收集了1700多名未受心脏疾病影响的用户数据,主要用于对比分析。CD数据集则是将HDD和BIG-Dataset合并而成,旨在通过结合受影响和未受影响个体的数据,提升模型的训练效果和准确性。
特点
HDD数据集具有多类别的特点,能够识别27种心脏疾病,并支持二分类任务,适用于复杂的心脏疾病检测。BIG-Dataset则专注于未受影响个体的数据,提供了健康人群的基准数据,有助于模型在实际应用中的泛化能力。CD数据集通过整合受影响和未受影响的数据,提供了更为全面的训练样本,特别适合用于多分类和二分类任务,且其特征之间的相关性通过热图进行了详细展示,便于进一步分析。
使用方法
HDD数据集适用于心脏疾病的分类和预测任务,尤其适合用于多类别分类模型。BIG-Dataset则可以用于健康人群的基准分析,帮助模型在实际应用中更好地区分健康与患病个体。CD数据集由于其综合性,适合用于训练复杂的机器学习模型,如随机森林和逻辑回归,以实现高精度的分类和预测。实验结果表明,随机森林在CD数据集上的测试准确率达到了96.66%,显著优于其他现有模型。
背景与挑战
背景概述
心血管疾病是全球范围内导致过早死亡的主要原因之一,尤其是在中老年人群中,男性发病率尤为突出。根据世界卫生组织的数据,非传染性疾病,包括心血管疾病,占全球死亡人数的25%,其中仅在孟加拉国每年就有超过43,204人因此丧生。然而,针对孟加拉国人群的心脏病检测系统的研究仍处于起步阶段,主要原因是缺乏标准化的数据集和依赖于有限数据的手动方法。为此,Mahfuzul Haque等人于2024年在ICCIT会议上提出了HDD、BIG和CD三个数据集,旨在通过这些数据集推动心脏病检测、分类和预测的研究。这些数据集包含了来自政府医院、诊断中心和在线资源的45,779条患者记录,涵盖了症状、检查技术和风险因素等多维信息,为机器学习模型提供了丰富的训练数据。
当前挑战
尽管这些数据集为心脏病检测提供了宝贵的资源,但在构建和应用过程中仍面临诸多挑战。首先,数据集的多样性有限,主要集中在特定人群,可能导致模型在其他人群中的泛化能力不足。其次,数据集的构建过程中,如何确保数据的准确性和完整性是一个重要问题,尤其是在涉及大量患者记录时,数据清洗和预处理工作尤为复杂。此外,现有的机器学习模型虽然在这些数据集上表现出色,但在实际临床应用中,模型的可解释性和实时性仍需进一步优化,以确保其在真实医疗环境中的有效性和可靠性。
常用场景
经典使用场景
HDD Dataset、BIG-Dataset 和 CD Dataset 主要用于心脏疾病的检测、分类和预测。这些数据集通过整合来自政府医院、诊断中心和在线资源的真实患者数据,涵盖了多种症状、检查技术和风险因素,为机器学习模型提供了丰富的训练数据。经典的使用场景包括利用这些数据集训练和验证机器学习模型,如逻辑回归和随机森林,以实现高精度的心脏疾病分类和预测。
解决学术问题
这些数据集解决了传统心脏疾病检测方法中数据不足和模型泛化能力差的问题。通过提供大规模、多样化的真实患者数据,这些数据集使得研究人员能够开发出更精确的机器学习模型,从而提高心脏疾病的早期检测和分类的准确性。此外,这些数据集还为特征选择和模型优化提供了宝贵的资源,有助于减少模型的过拟合现象,提升其在实际应用中的可靠性。
衍生相关工作
基于这些数据集,许多相关的经典工作得以展开。例如,研究人员利用这些数据集开发了多种心脏疾病预测模型,包括集成学习方法和深度学习技术。此外,这些数据集还促进了特征选择和数据增强技术的研究,进一步提升了模型的性能。在临床应用方面,这些数据集的成功应用也激发了更多关于可解释性和透明度的研究,以确保机器学习模型在医疗决策中的可靠性和可信度。
以上内容由AI搜集并总结生成



