Heart Failure Synthetic Dataset

Name: Heart Failure Synthetic Dataset
Creator: Department of Clinical Epidemiology and Biostatistics, Faculty of Medicine Ramathibodi Hospital, Mahidol University, Bangkok, Thailand
Published: 2025-09-04 22:17:58
License: 暂无描述

arXiv2025-09-04 更新2025-11-24 收录

下载链接：

https://zenodo.org/records/17051668

下载链接

链接失效反馈

官方服务：

资源简介：

本研究旨在为心力衰竭研究创建一个高保真、可公开共享的合成数据集。该数据集由来自泰国曼谷玛希隆大学拉玛提波迪医院的心力衰竭患者的真实数据生成，包含12,552名患者的信息。研究采用了深度学习模型，包括TVAE、NFlow、ADSGAN、SurvivalGAN和TabDDPM，对数据进行合成，并通过统计相似度指标、生存预测和隐私保护等方面进行了全面评估。结果显示，SurvivalGAN和TabDDPM模型表现最佳，其生存预测性能接近真实数据。该数据集为心力衰竭研究提供了重要的共享资源，有助于推动相关研究的进展。

This study aims to create a high-fidelity, publicly shareable synthetic dataset for heart failure research. This dataset is generated from real data of heart failure patients from Ramathibodi Hospital, Mahidol University, Bangkok, Thailand, and includes information of 12,552 patients. The study adopted deep learning models including TVAE, NFlow, ADSGAN, SurvivalGAN and TabDDPM to synthesize the data, and conducted comprehensive evaluations from aspects such as statistical similarity metrics, survival prediction and privacy protection. The results show that SurvivalGAN and TabDDPM models achieve the best performance, with their survival prediction performance close to that of real data. This dataset provides an important shared resource for heart failure research and helps advance the progress of relevant studies.

提供机构：

Department of Clinical Epidemiology and Biostatistics, Faculty of Medicine Ramathibodi Hospital, Mahidol University, Bangkok, Thailand

创建时间：

2025-09-04

搜集汇总

数据集介绍

构建方式

在心力衰竭研究领域，数据共享常受隐私法规限制，该数据集通过深度生成模型构建而成。研究团队基于拉玛提博迪医院2010至2024年间12,552例真实患者数据，采用五种深度学习架构——表格变分自编码器、标准化流、ADSGAN、SurvivalGAN及表格去噪扩散概率模型进行数据生成。原始数据经过HIPAA标准脱敏处理后，通过链式方程多重插补处理缺失值，并采用临床合理范围截断策略消除异常值，最终生成的合成数据经过直方图均衡化修正时间分布偏差，确保其具备临床逻辑合理性。

使用方法

该数据集为心力衰竭预后研究提供了可公开获取的替代资源，支持多种机器学习范式验证。研究人员可采用合成训练-真实测试范式评估模型泛化能力，通过Cox比例风险模型、随机生存森林、DeepSurv和DeepHit等架构进行生存分析。在使用前需对连续变量进行标准化处理，分类变量可直接输入模型。建议结合直方图均衡化技术校正时间至事件变量的分布，并利用集成评估框架同时验证统计保真度、预测效用和隐私保护强度，以确保研究结论的稳健性。

背景与挑战

背景概述

心力衰竭作为全球重大公共卫生挑战，影响超过6400万人口，其患病率预计至2030年将增长46%。由泰国玛希隆大学拉玛提博迪医院联合加拿大滑铁卢大学研究团队于2024年构建的Heart Failure Synthetic Dataset，旨在通过深度学习生成模型突破临床数据共享的隐私壁垒。该数据集基于12,552例真实患者记录，采用五种生成式架构合成高保真医疗数据，为心力衰竭预后研究提供了可公开获取的关键资源，显著推动了心血管疾病人工智能研究的发展。

当前挑战

在心力衰竭预后研究领域，传统临床数据面临隐私法规与机构壁垒导致的数据共享困境，同时需解决生存分析中时间至事件数据的复杂建模挑战。数据集构建过程中，需克服生成模型对生存曲线拟合偏差的技术难点，例如SurvivalGAN模型在未经直方图均衡化处理时出现的校准误差；此外还需平衡数据效用与隐私保护，通过成员推理攻击与属性推理攻击测试确保合成数据免受重识别风险，并维持与原始数据相似的统计分布与机器学习预测效能。

常用场景

经典使用场景

在心力衰竭预后研究领域，该合成数据集主要应用于生存分析模型的训练与验证。通过深度学习生成的合成数据能够有效支持多种机器学习算法的开发，包括Cox比例风险模型、随机生存森林以及深度生存网络等。这些模型在合成数据上的表现与真实数据相当，为研究人员提供了可靠的替代数据源，特别是在处理敏感医疗信息时展现出独特价值。

解决学术问题

该数据集成功解决了医疗数据共享中的隐私保护与数据效用平衡这一核心学术难题。通过生成高保真度的合成数据，既避免了传统匿名化技术导致的信息损失，又有效防范了重识别攻击。在统计相似性评估中，TabDDPM和SurvivalGAN等模型在维度分布和列相关性指标上均超过80%的准确率，为跨机构协作研究提供了可行的技术路径。

实际应用

在实际医疗场景中，该数据集支持心力衰竭患者的风险分层和预后预测。临床医生可利用基于合成数据训练的预测模型，识别高危患者并制定个性化治疗方案。合成数据的可用性使得医疗机构能够在严格遵守隐私法规的前提下，开展大规模的模型验证和算法优化，显著提升了医疗决策的科学性和可及性。

数据集最近研究