five

Health Gym AI datasets

收藏
github2025-09-26 更新2025-09-27 收录
下载链接:
https://github.com/NicKuo-ResearchStuff/Health_Gym_AI
下载链接
链接失效反馈
官方服务:
资源简介:
Health Gym 是一个发布隐私保护、真实合成纵向电子健康记录(EHR)数据集的平台,包含败血症、急性低血压和HIV抗逆转录病毒治疗(ART)等数据集,用于机器学习、强化学习和临床研究,确保数据安全性和真实性。

Health Gym is a platform that releases privacy-preserving, realistically synthetic longitudinal electronic health record (EHR) datasets. Its dataset portfolio includes collections focused on sepsis, acute hypotension, and HIV antiretroviral therapy (ART), among others, which are tailored for machine learning, reinforcement learning, and clinical research while ensuring both data security and authenticity.
创建时间:
2025-09-12
原始信息汇总

Health Gym 数据集概述

数据集简介

Health Gym 是一个由 CBDRH 发起的项目,发布隐私保护、真实的合成纵向电子健康记录数据集和示例代码,供研究人员、教育工作者和学生构建和测试模型,而无需访问可识别的患者数据。

核心特性

  • 数据类型:混合类型时间序列数据(数值型、二元型、分类型)
  • 提供内容:教学笔记本、机器学习/强化学习基准、可视化工具、生存分析工具和政策学习工具
  • 安全性:经过伦理批准(UNSW HC210661)、严格的披露风险评估和非同一性检查
  • 适用对象:需要模拟真实世界复杂数据的教育工作者,以及在真实临床数据访问受限情况下进行方法原型设计的研究人员

包含的数据集

  • Sepsis(基于 MIMIC-III)
  • Acute Hypotension(基于 MIMIC-III)
  • ART for HIV(基于 EuResist)

生成方法

  • GANs:对抗训练循环网络,生成真实纵向患者轨迹
  • 扩散模型:基于噪声的生成模型,迭代去噪生成多样化、稳定且保留相关性的合成健康数据
  • 混合定制模型:结合 VAE 编码和回放缓冲区的 GAN 扩展,缓解模式崩溃问题

资源链接

  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs001_Intro
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs002_Realism
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs003_HandsOn(HealthGymV1)
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs004_HandsOn(HealthGymV2)
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs005_HandsOn(HealthGymV2.5)
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs_Z_Implementation/Implementation01
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs_Z_Implementation/Implementation02
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs_Z_Implementation/Implementation03
  • https://github.com/NicKuo-ResearchStuff/Health_Gym_AI/tree/main/Blogs/Blogs_Z_Implementation/Implementation04

开发团队

  • 主要实施者:Dr. Nic Kuo (UNSW)
  • 临床领域专家:Prof. Mark Polizzotto (ANU)、Prof. Simon Finfer (UNSW)
  • 项目负责人:A/Prof. Sebastiano Barbieri (UQ)、Prof-Director Louisa Jorm (UNSW)

联系信息

  • 联系人:Nic Kuo
  • 邮箱:n.kuo@unsw.edu.au
搜集汇总
数据集介绍
main_image_url
构建方式
在医疗数据科学领域,Health Gym数据集的构建采用了前沿的生成模型技术。该数据集基于精心筛选的临床队列,运用生成对抗网络和扩散概率模型生成合成数据。构建过程中进行了严格的真实性、效用性和隐私性评估,确保数据既保留原始临床轨迹的复杂性,又有效保护患者隐私。这种生成方法不仅模拟了混合类型的时间序列数据,还通过伦理审查和披露风险评估,为研究提供了安全可靠的数据基础。
使用方法
使用Health Gym数据集时,研究人员可通过提供的教学笔记本和示例代码快速上手。数据集支持Python环境下的直接加载与预处理,包含从数据格式化到特征嵌入的完整流程。用户可基于现有基准模型开展预测分析或强化学习实验,亦可利用可视化工具验证数据真实性。配套的实践指南详细展示了如何将时序数据转换为模型可接受的张量格式,为临床决策支持系统的开发提供端到端支持。
背景与挑战
背景概述
Health Gym AI数据集由新南威尔士大学健康大数据研究中心于2022年推出,核心团队包括Nic Kuo、Sebastiano Barbieri和Louisa Jorm等学者。该数据集致力于解决临床数据隐私保护与机器学习模型开发之间的冲突,通过生成合成电子健康记录数据,为研究人员提供安全可靠的实验平台。其数据源涵盖MIMIC-III重症监护数据库和EuResist HIV治疗数据库,覆盖脓毒症、急性低血压及抗逆转录病毒治疗等关键临床场景,显著推动了医疗人工智能在隐私合规条件下的方法论创新。
当前挑战
在医疗数据共享领域,真实患者数据的隐私保护与模型训练需求构成核心矛盾。Health Gym需确保合成数据既能保留原始临床轨迹的统计特性,又能通过差分隐私和模式坍塌抑制技术规避重识别风险。构建过程中,生成对抗网络与扩散模型需协调多类型时间序列变量的相关性,同时应对罕见治疗事件的数据稀疏性问题。此外,合成数据需通过实用性验证,确保其在强化学习策略优化等下游任务中具备与真实数据相当的预测效能。
常用场景
经典使用场景
在临床决策支持系统的开发过程中,Health Gym数据集为机器学习算法提供了高度仿真的训练环境。该数据集通过生成对抗网络和扩散概率模型构建的合成电子健康记录,精准模拟了脓毒症、急性低血压和HIV抗病毒治疗等典型临床场景的纵向数据特征。研究人员可利用这些包含数值型、二元型和分类型变量的时间序列数据,开展从预测分析到强化学习的多维度模型验证,特别是在处理类别不平衡分布和罕见治疗方案的场景中展现出卓越的实用性。
解决学术问题
该数据集有效解决了临床机器学习领域面临的数据隐私与模型泛化能力之间的固有矛盾。通过生成符合伦理审查标准的合成数据,研究人员能够在保护患者隐私的前提下,突破真实临床数据获取的技术壁垒,开展大规模算法验证。其严谨的披露风险评估和非同一性检验机制,为医疗人工智能研究提供了可靠的数据基础,显著推动了强化学习在个性化治疗方案优化、生存分析模型构建等前沿领域的学术探索。
实际应用
在医疗教育与实践场景中,Health Gym数据集已被新南威尔士大学等机构纳入研究生课程和数据马拉松活动,成为培养临床数据分析人才的重要工具。其高度仿真的数据特性使医学生能够安全地接触复杂临床决策环境,而医疗机构则可借助这些数据原型化诊断辅助系统。特别是在抗病毒治疗策略模拟和重症监护预测模型开发方面,该数据集为临床工作者提供了低风险的技术验证平台。
数据集最近研究
最新研究方向
在医疗人工智能领域,Health Gym数据集正推动隐私保护合成数据生成技术的前沿探索。基于生成对抗网络和扩散概率模型的混合架构,研究者致力于提升合成电子健康记录的时序关联性与临床合理性,尤其在脓毒症、急性低血压和艾滋病抗病毒治疗等关键场景中模拟真实世界复杂性。当前热点聚焦于通过元学习框架整合变分自编码器与Transformer结构,以增强少数群体治疗轨迹的生成公平性,同时确保数据在强化学习与生存分析任务中的效用性。这类合成数据平台不仅缓解了临床敏感信息的访问壁垒,更为医疗政策优化和算法可解释性研究提供了安全沙箱,其教育应用已嵌入高校课程体系,标志着合成数据在循证医学向数据驱动范式转型中的桥梁作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作