Synthetic Healthcare Data - Clinical and Claims
收藏Snowflake2025-06-25 更新2025-06-26 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSTZL7M0Q6
下载链接
链接失效反馈官方服务:
资源简介:
The Snowflake Solution Engineering HCLS Payor/Provider team developed a synthetic healthcare dataset using the [Synthea framework from Mitre Corp](https://synthea.mitre.org/).
We selected multiple cities across Continental US regions (east-coast, west-coast, southern, midwest), and proportionally generated patient and patient-adjacent data reflecting 10% of each city’s population according to 2020 US Census figures.
**Key Features**
- **Comprehensive Clinical & Claims Data**: The dataset includes patients, conditions, encounters, medications, procedures, observations, allergies, immunizations, and related claims and provider tables.
- **Clinically Consistent**: For example, a patient with a diabetes diagnosis may also have abnormal glucose lab results and prescriptions for medications to treat diabetes.
**Longitudinal Realism**: Patients have multiple encounters over time, seeing various providers for different reasons and/or disease progression and management.
Currently, the database includes more than: 1.4M Patients, 65M Encounters, 124M Claims, and 887M Claim Line Details
提供机构:
Snowflake Virtual Hands-On Labs
创建时间:
2025-06-24
原始信息汇总
Synthetic Healthcare Data - Clinical and Claims 数据集概述
数据集基本信息
- 数据集名称: Synthetic Healthcare Data - Clinical and Claims
- 提供方: Snowflake Virtual Hands-On Labs
- 访问权限: Free (Unlimited Access)
- 数据生成方法: 使用Mitre Corp的Synthea框架生成
- 地理覆盖范围: 美国大陆多个城市(东海岸、西海岸、南部、中西部)
- 人口比例: 按2020年美国人口普查数据生成各城市10%人口比例的模拟数据
数据规模
- 1.4M 患者
- 65M 就诊记录
- 124M 索赔记录
- 887M 索赔明细
关键特性
- 全面性: 包含患者、病情、就诊、药物、程序、观察、过敏、免疫等相关临床和索赔数据
- 临床一致性: 数据间存在临床逻辑关联(如糖尿病患者会显示异常血糖检测结果和相关药物治疗)
- 纵向真实性: 患者随时间推移有多次就诊记录,反映疾病进展和管理过程
主要数据表
- CLAIMS (索赔表)
- ENCOUNTERS (就诊表)
- PATIENTS (患者表)
- PAYERS (支付方表)
- PROVIDERS (提供方表)
- 其他13个相关数据对象
索赔表(CLAIMS)数据结构示例
| 列名 | 数据类型 | 描述 |
|---|---|---|
| CLAIM_ID | Number | 索赔ID |
| PATIENT_ID | Number | 患者ID |
| PROVIDER_ID | Number | 提供方ID |
| PRIMARY_PATIENT_INSURANCE_ID | Number | 主保险ID |
| DIAGNOSIS1-DIAGNOSIS8 | Number | 诊断代码(最多8个) |
| ENCOUNTER_ID | Number | 关联的就诊ID |
| SERVICEDATE | Timestamp_NTZ | 服务日期 |
| SYNTHEA_CITY | Varchar | 城市名称 |
使用案例
- 按年份和城市统计患者就诊数量
- 查询特定城市(如克利夫兰)的糖尿病患者数量
时间覆盖范围
1913年1月1日 - 2024年12月31日
地理覆盖
- 美国所有州
- 包含多个具体城市数据(如坦帕、克利夫兰、底特律、芝加哥等)
更新频率
静态数据(无定期更新)
适用场景
- 应用程序设计和测试
- 演示材料创建
- 无需真实患者健康信息(PHI)的开发环境
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集由Snowflake团队利用Synthea框架生成,模拟美国大陆多个城市10%的人口比例,包含临床记录和理赔信息,具有临床一致性和患者纵向时间线特征。数据规模涵盖超过140万患者、6500万次就诊和8.87亿条理赔明细。
以上内容由遇见数据集搜集并总结生成



