five

Synthetic Healthcare Data - Clinical and Claims

收藏
Snowflake2025-06-25 更新2025-06-26 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSTZL7M0Q6
下载链接
链接失效反馈
官方服务:
资源简介:
The Snowflake Solution Engineering HCLS Payor/Provider team developed a synthetic healthcare dataset using the [Synthea framework from Mitre Corp](https://synthea.mitre.org/). We selected multiple cities across Continental US regions (east-coast, west-coast, southern, midwest), and proportionally generated patient and patient-adjacent data reflecting 10% of each city’s population according to 2020 US Census figures. **Key Features** - **Comprehensive Clinical & Claims Data**: The dataset includes patients, conditions, encounters, medications, procedures, observations, allergies, immunizations, and related claims and provider tables. - **Clinically Consistent**: For example, a patient with a diabetes diagnosis may also have abnormal glucose lab results and prescriptions for medications to treat diabetes. **Longitudinal Realism**: Patients have multiple encounters over time, seeing various providers for different reasons and/or disease progression and management. Currently, the database includes more than: 1.4M Patients, 65M Encounters, 124M Claims, and 887M Claim Line Details
提供机构:
Snowflake Virtual Hands-On Labs
创建时间:
2025-06-24
原始信息汇总

Synthetic Healthcare Data - Clinical and Claims 数据集概述

数据集基本信息

  • 数据集名称: Synthetic Healthcare Data - Clinical and Claims
  • 提供方: Snowflake Virtual Hands-On Labs
  • 访问权限: Free (Unlimited Access)
  • 数据生成方法: 使用Mitre Corp的Synthea框架生成
  • 地理覆盖范围: 美国大陆多个城市(东海岸、西海岸、南部、中西部)
  • 人口比例: 按2020年美国人口普查数据生成各城市10%人口比例的模拟数据

数据规模

  • 1.4M 患者
  • 65M 就诊记录
  • 124M 索赔记录
  • 887M 索赔明细

关键特性

  • 全面性: 包含患者、病情、就诊、药物、程序、观察、过敏、免疫等相关临床和索赔数据
  • 临床一致性: 数据间存在临床逻辑关联(如糖尿病患者会显示异常血糖检测结果和相关药物治疗)
  • 纵向真实性: 患者随时间推移有多次就诊记录,反映疾病进展和管理过程

主要数据表

  • CLAIMS (索赔表)
  • ENCOUNTERS (就诊表)
  • PATIENTS (患者表)
  • PAYERS (支付方表)
  • PROVIDERS (提供方表)
  • 其他13个相关数据对象

索赔表(CLAIMS)数据结构示例

列名 数据类型 描述
CLAIM_ID Number 索赔ID
PATIENT_ID Number 患者ID
PROVIDER_ID Number 提供方ID
PRIMARY_PATIENT_INSURANCE_ID Number 主保险ID
DIAGNOSIS1-DIAGNOSIS8 Number 诊断代码(最多8个)
ENCOUNTER_ID Number 关联的就诊ID
SERVICEDATE Timestamp_NTZ 服务日期
SYNTHEA_CITY Varchar 城市名称

使用案例

  1. 按年份和城市统计患者就诊数量
  2. 查询特定城市(如克利夫兰)的糖尿病患者数量

时间覆盖范围

1913年1月1日 - 2024年12月31日

地理覆盖

  • 美国所有州
  • 包含多个具体城市数据(如坦帕、克利夫兰、底特律、芝加哥等)

更新频率

静态数据(无定期更新)

适用场景

  • 应用程序设计和测试
  • 演示材料创建
  • 无需真实患者健康信息(PHI)的开发环境
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集由Snowflake团队利用Synthea框架生成,模拟美国大陆多个城市10%的人口比例,包含临床记录和理赔信息,具有临床一致性和患者纵向时间线特征。数据规模涵盖超过140万患者、6500万次就诊和8.87亿条理赔明细。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作