synth_clif_10k
收藏github2026-01-30 更新2026-02-09 收录
下载链接:
https://github.com/AartikSarma/synthetic_clif
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含一个预生成的合成数据集,模拟了重症监护病房(ICU)的数据,遵循CLIF 2.1.0规范。数据集包含10,000例住院记录(约1600万行数据,分布在28个表格中),如患者信息、住院记录、生命体征、实验室结果等。由于数据完全是合成的,不包含任何受保护的健康信息(PHI),因此可以用于开发、测试和共享。
This repository contains a pre-generated synthetic dataset that simulates intensive care unit (ICU) data, compliant with the CLIF 2.1.0 specification. The dataset includes 10,000 inpatient records (approximately 16 million rows of data distributed across 28 tables), such as patient information, admission records, vital signs, laboratory results, and more. Since the data is entirely synthetic and contains no protected health information (PHI), it can be used for development, testing, and sharing purposes.
创建时间:
2026-01-30
原始信息汇总
synthetic_clif 数据集概述
数据集基本信息
- 数据集名称:synthetic_clif
- 主要用途:生成遵循 CLIF 2.1.0 规范的合成 ICU 数据,用于测试和开发。
- 核心优势:数据完全合成,不包含任何受保护的健康信息(PHI),可在非 HIPAA 兼容系统上使用。
数据内容与规模
- 预生成数据集:包含 10,000 次住院事件,涵盖 28 张表,总计约 1600 万行数据。
- 数据格式:Parquet 文件(默认),也支持 CSV 格式。
- 数据表分类:
- Beta 表(16 张):包括患者、住院、生命体征、实验室结果、呼吸支持、用药管理、微生物学、评估、诊断、治疗等核心临床数据表。
- 概念表(12 张):包括临床试验、ECMO、出入量、血流动力学、医嘱、地理指数、提供者、治疗详情、输血等扩展数据表。
数据特征
- 真实性模拟:数据包含真实 EHR 数据中常见的特征。
- 时间自相关:连续的生命体征遵循生理上合理的模式。
- 变量间相关性:例如低血氧会触发呼吸支持升级,低平均动脉压会触发升压药使用。
- 不规则测量频率:ICU 生命体征约每小时一次,普通病房约每 4 小时一次。
- 缺失模式:基于临床记录实践,包含完全随机缺失、随机缺失和非随机缺失。
- 异常值:包含生理上合理的极端值(如发热峰值、低血压事件)。
- 可变住院时长:服从对数正态分布(中位数约 5 天,范围 1-60 天以上)。
获取与使用方式
- 直接使用预生成数据:克隆仓库后,可直接读取
synth_clif_10k/目录下的 Parquet 文件。 - 自定义生成数据:通过命令行工具或 Python API 指定患者数量、住院事件数量等参数生成所需规模的数据集。
- 安装方式:通过
pip install -e .安装此 Python 包。
相关资源
- CLIF 规范:https://clif-consortium.github.io/website/
- CLIF GitHub:https://github.com/clif-consortium
- 许可证:MIT
搜集汇总
数据集介绍

构建方式
在重症监护医学研究领域,合成数据生成技术为数据共享与算法开发提供了关键支持。synth_clif_10k数据集严格遵循CLIF 2.1.0规范,通过程序化方法模拟真实ICU环境中的临床数据特征。生成过程采用可控的随机种子确保可复现性,并依据生理学原理构建变量间的时序自相关与跨变量关联。数据涵盖患者人口统计、住院事件、生命体征、实验室结果等28张表,通过参数化配置灵活调整患者数量与住院次数,最终以Parquet或CSV格式输出,完整保留了真实电子健康记录中常见的缺失模式与异常值分布。
特点
该数据集的核心价值在于其完全合成性质,彻底避免了患者隐私信息泄露风险,使得研究人员能够在非HIPAA合规系统中自由使用。数据模拟了重症监护场景下的典型特征,包括生命体征的生理合理波动、实验室指标间的临床相关性以及基于实际文档记录习惯的缺失机制。时间序列数据呈现出不规则测量频率,如ICU每小时记录与普通病房每四小时记录的差异,同时住院时长服从对数正态分布,中位数为5天,范围可达60天以上,这些设计均增强了数据的真实性与实用性。
使用方法
用户可通过多种方式利用该数据集进行开发与测试工作。预生成的10,000次住院记录可直接从仓库克隆,并利用Pandas库读取Parquet文件进行即时分析。若需定制数据规模,可通过命令行工具或Python API灵活调整患者与住院数量,并指定输出目录与随机种子。生成的数据表可直接用于验证CLIF分析流程的准确性,或在持续集成环境中部署自动化测试。此外,合成数据的无隐私约束特性使其能够安全共享于云端开发环境与AI编程助手,极大促进了跨团队协作与可重复研究。
背景与挑战
背景概述
在重症监护医学研究领域,高质量、标准化的临床数据对于开发预测模型和优化诊疗策略至关重要。synth_clif_10k数据集由Aartik Sarma等人创建,旨在遵循CLIF 2.1.0规范生成合成ICU数据,以应对真实医疗数据中隐私保护与可及性之间的固有矛盾。该数据集通过模拟一万次住院事件,覆盖患者人口统计学、生命体征、实验室检查等28个数据表,为研究人员提供了一个无PHI风险的开发与测试环境,从而加速了临床信息学工具在合规框架下的迭代与验证。
当前挑战
该数据集致力于解决重症监护数据标准化与可复用性领域的挑战,其核心在于生成既符合真实临床逻辑又完全脱敏的合成数据。构建过程中的主要困难包括模拟临床事件间的复杂时序相关性,例如生命体征的生理学合理波动与治疗干预的连锁反应;同时需在缺失值模式、异常值分布以及变量间关联性上贴近真实世界数据的统计特性,避免因过度简化而削弱数据的分析价值。
常用场景
经典使用场景
在重症监护医学信息学领域,synth_clif_10k数据集作为遵循CLIF 2.1.0规范的合成数据,其经典使用场景聚焦于算法开发与验证。研究人员利用该数据集模拟真实ICU环境中的多模态时序数据,如生命体征、实验室结果和呼吸支持记录,从而构建和测试临床预测模型。这些模型旨在识别患者病情恶化风险或评估治疗干预效果,为后续在真实数据上的应用奠定基础。
实际应用
在实际应用中,synth_clif_10k数据集被广泛集成于医疗软件开发的持续集成与交付流程。工程团队利用其模拟数据验证ETL管道的数据处理逻辑,确保临床分析代码在部署前的鲁棒性。此外,该数据集支持教育场景下的模拟教学,帮助医学生与数据科学家在安全环境中熟悉ICU数据结构和分析技术,而无需接触敏感信息,从而降低了培训门槛与合规风险。
衍生相关工作
围绕synth_clif_10k数据集,已衍生出多项经典研究工作。例如,基于其时序特性开发的早期预警评分模型,能够模拟真实ICU中生命体征的生理相关性;另有研究利用该数据集的缺失模式设计插补算法,以处理电子健康记录中常见的非随机缺失问题。这些工作不仅验证了合成数据在方法学开发中的实用性,也为CLIF生态系统的工具链完善提供了关键测试基准。
以上内容由遇见数据集搜集并总结生成



