Heart Failure Synthetic Dataset
收藏arXiv2025-09-04 更新2025-11-24 收录
下载链接:
https://zenodo.org/records/17051668
下载链接
链接失效反馈官方服务:
资源简介:
本研究旨在为心力衰竭研究创建一个高保真、可公开共享的合成数据集。该数据集由来自泰国曼谷玛希隆大学拉玛提波迪医院的心力衰竭患者的真实数据生成,包含12,552名患者的信息。研究采用了深度学习模型,包括TVAE、NFlow、ADSGAN、SurvivalGAN和TabDDPM,对数据进行合成,并通过统计相似度指标、生存预测和隐私保护等方面进行了全面评估。结果显示,SurvivalGAN和TabDDPM模型表现最佳,其生存预测性能接近真实数据。该数据集为心力衰竭研究提供了重要的共享资源,有助于推动相关研究的进展。
This study aims to create a high-fidelity, publicly shareable synthetic dataset for heart failure research. This dataset is generated from real data of heart failure patients from Ramathibodi Hospital, Mahidol University, Bangkok, Thailand, and includes information of 12,552 patients. The study adopted deep learning models including TVAE, NFlow, ADSGAN, SurvivalGAN and TabDDPM to synthesize the data, and conducted comprehensive evaluations from aspects such as statistical similarity metrics, survival prediction and privacy protection. The results show that SurvivalGAN and TabDDPM models achieve the best performance, with their survival prediction performance close to that of real data. This dataset provides an important shared resource for heart failure research and helps advance the progress of relevant studies.
提供机构:
Department of Clinical Epidemiology and Biostatistics, Faculty of Medicine Ramathibodi Hospital, Mahidol University, Bangkok, Thailand
创建时间:
2025-09-04
搜集汇总
数据集介绍

构建方式
在心力衰竭研究领域,数据共享常受隐私法规限制,该数据集通过深度生成模型构建而成。研究团队基于拉玛提博迪医院2010至2024年间12,552例真实患者数据,采用五种深度学习架构——表格变分自编码器、标准化流、ADSGAN、SurvivalGAN及表格去噪扩散概率模型进行数据生成。原始数据经过HIPAA标准脱敏处理后,通过链式方程多重插补处理缺失值,并采用临床合理范围截断策略消除异常值,最终生成的合成数据经过直方图均衡化修正时间分布偏差,确保其具备临床逻辑合理性。
使用方法
该数据集为心力衰竭预后研究提供了可公开获取的替代资源,支持多种机器学习范式验证。研究人员可采用合成训练-真实测试范式评估模型泛化能力,通过Cox比例风险模型、随机生存森林、DeepSurv和DeepHit等架构进行生存分析。在使用前需对连续变量进行标准化处理,分类变量可直接输入模型。建议结合直方图均衡化技术校正时间至事件变量的分布,并利用集成评估框架同时验证统计保真度、预测效用和隐私保护强度,以确保研究结论的稳健性。
背景与挑战
背景概述
心力衰竭作为全球重大公共卫生挑战,影响超过6400万人口,其患病率预计至2030年将增长46%。由泰国玛希隆大学拉玛提博迪医院联合加拿大滑铁卢大学研究团队于2024年构建的Heart Failure Synthetic Dataset,旨在通过深度学习生成模型突破临床数据共享的隐私壁垒。该数据集基于12,552例真实患者记录,采用五种生成式架构合成高保真医疗数据,为心力衰竭预后研究提供了可公开获取的关键资源,显著推动了心血管疾病人工智能研究的发展。
当前挑战
在心力衰竭预后研究领域,传统临床数据面临隐私法规与机构壁垒导致的数据共享困境,同时需解决生存分析中时间至事件数据的复杂建模挑战。数据集构建过程中,需克服生成模型对生存曲线拟合偏差的技术难点,例如SurvivalGAN模型在未经直方图均衡化处理时出现的校准误差;此外还需平衡数据效用与隐私保护,通过成员推理攻击与属性推理攻击测试确保合成数据免受重识别风险,并维持与原始数据相似的统计分布与机器学习预测效能。
常用场景
经典使用场景
在心力衰竭预后研究领域,该合成数据集主要应用于生存分析模型的训练与验证。通过深度学习生成的合成数据能够有效支持多种机器学习算法的开发,包括Cox比例风险模型、随机生存森林以及深度生存网络等。这些模型在合成数据上的表现与真实数据相当,为研究人员提供了可靠的替代数据源,特别是在处理敏感医疗信息时展现出独特价值。
解决学术问题
该数据集成功解决了医疗数据共享中的隐私保护与数据效用平衡这一核心学术难题。通过生成高保真度的合成数据,既避免了传统匿名化技术导致的信息损失,又有效防范了重识别攻击。在统计相似性评估中,TabDDPM和SurvivalGAN等模型在维度分布和列相关性指标上均超过80%的准确率,为跨机构协作研究提供了可行的技术路径。
实际应用
在实际医疗场景中,该数据集支持心力衰竭患者的风险分层和预后预测。临床医生可利用基于合成数据训练的预测模型,识别高危患者并制定个性化治疗方案。合成数据的可用性使得医疗机构能够在严格遵守隐私法规的前提下,开展大规模的模型验证和算法优化,显著提升了医疗决策的科学性和可及性。
数据集最近研究
最新研究方向
心力衰竭研究领域正面临临床数据共享的隐私与法规壁垒,合成数据生成技术为此提供了创新解决方案。基于深度生成模型的最新研究聚焦于构建高保真且隐私保护的心力衰竭合成数据集,通过比较变分自编码器、归一化流、生成对抗网络及扩散模型等多种架构,验证了合成数据在统计相似性、生存预测性能与隐私安全性方面的均衡表现。其中SurvivalGAN与TabDDPM在生存曲线拟合和预测模型训练中展现出接近真实数据的效用,同时通过直方图均衡化等后处理技术优化时间分布差异。这一方向不仅推动了跨机构协作的医疗数据资源建设,更成为人工智能在心血管疾病预后分析中的关键基础设施,为开发下一代风险预测模型奠定基础。
相关研究论文
- 1通过Department of Clinical Epidemiology and Biostatistics, Faculty of Medicine Ramathibodi Hospital, Mahidol University, Bangkok, Thailand · 2025年
以上内容由遇见数据集搜集并总结生成



