five

TinyEHR

收藏
github2026-03-31 更新2026-03-30 收录
下载链接:
https://github.com/vidulpanickan/TinyEHR
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含100名患者混合电子健康记录的数据集,用于学习、实验和原型设计医疗数据和工具。结构化数据来自真实的去识别化医院记录(MIMIC-IV Demo),就诊日期经过转换以反映真实世界的EHR时间线。数据集还包括4,580条合成的临床记录,这些记录通过跟随每位患者在就诊期间的档案生成,以保留真实的临床工作流程。

This dataset contains mixed electronic health records (EHRs) from 100 patients, intended for learning, experimentation, and prototyping of medical data and tools. The structured data is sourced from real de-identified hospital records (MIMIC-IV Demo), and the visit dates have been transformed to reflect real-world EHR timelines. The dataset also includes 4,580 synthetic clinical records, which are generated by following each patient's profile across their visits to preserve authentic clinical workflows.
创建时间:
2026-03-28
原始信息汇总

TinyEHR 数据集概述

数据集简介

TinyEHR 是一个包含 100 名患者的合成电子健康记录数据集。它源自 MIMIC-IV Clinical Database Demo v2.2,专为学习、实验和构建健康数据工具原型而设计。该数据集同时提供 MIMIC-IV 和 OMOP CDM v5.3.1 两种格式,分别包含 33 张和 23 张已填充数据的表格。此外,数据集还包含了 4,580 条合成的临床笔记,以补充结构化数据。

数据访问方式

方法 链接 最佳用途
在浏览器中浏览和查询 https://tinyehr.org 快速探索、SQL 练习
HuggingFace 数据集 https://huggingface.co/datasets/vidulpanickan/TinyEHR 数据集查看器、Parquet 文件下载
Python 包 pip install tinyehr 在笔记本或脚本中使用 DataFrame
下载 CSV https://github.com/vidulpanickan/TinyEHR/archive/refs/heads/main.zip 完整下载,用于自定义流程

数据格式与内容

MIMIC-IV 格式

共包含 33 张表格,总计 1,403,180 行数据。

  • 医院数据 (22 张表): patients, admissions, diagnoses_icd, procedures_icd, hcpcsevents, prescriptions, pharmacy, labevents, microbiologyevents, drgcodes, services, transfers, d_labitems, d_icd_diagnoses, d_icd_procedures, d_hcpcs, provider, emar, emar_detail, poe, poe_detail, omr。
  • ICU 数据 (9 张表): chartevents, procedureevents, outputevents, datetimeevents, inputevents, ingredientevents, icustays, d_items, caregiver。
  • 笔记数据 (1 张表): noteevents (包含 4,580 条合成的临床笔记)。
  • 元数据 (1 张表): date_offsets。

OMOP CDM v5.3.1 格式

共包含 23 张已填充数据的表格:care_site, cdm_source, concept, concept_relationship, condition_era, condition_occurrence, death, device_exposure, dose_era, drug_era, drug_exposure, fact_relationship, location, measurement, note, observation, observation_period, person, procedure_occurrence, specimen, visit_detail, visit_occurrence, vocabulary。

数据来源与构建

许可证

  • 数据: 采用 ODbL-1.0 (Open Data Commons Open Database License) 许可证。允许自由使用、分享和修改。如果重新分发修改后的数据集版本,必须在相同许可证下发布。
  • 代码 (tinyehr Python 包): 采用 MIT 许可证。
搜集汇总
数据集介绍
main_image_url
构建方式
在医疗数据科学领域,构建高质量且易于访问的数据集对于推动研究与应用至关重要。TinyEHR数据集源自MIMIC-IV临床数据库演示版v2.2,通过精心设计生成了100名虚拟患者的电子健康记录。该数据集不仅保留了原始MIMIC-IV的结构化数据框架,还扩展至OMOP通用数据模型v5.3.1格式,分别填充了33张和23张数据表。为了增强数据的完整性,研究团队合成了4,580份临床文本记录,从而在保护真实患者隐私的同时,为结构化信息提供了丰富的上下文补充。
特点
TinyEHR的显著特点在于其双格式兼容性,同时支持MIMIC-IV和OMOP CDM两种主流医疗数据标准,这为跨平台工具开发和算法验证提供了便利。数据集涵盖医院与重症监护室的多维度信息,包括诊断、实验室检查、用药记录等,并引入了合成临床笔记以模拟真实世界场景。其轻量级设计专注于学习与原型开发,无需繁琐的数据使用协议即可直接访问,极大降低了医疗数据研究的入门门槛。
使用方法
用户可通过多种灵活方式利用TinyEHR数据集进行探索与分析。在线平台支持直接浏览与SQL查询,适合快速数据探查;HuggingFace仓库提供了Parquet格式下载,便于集成至机器学习流程。安装配套Python包后,用户能够以数据框形式加载特定表格或提取单个患者的完整记录,并可在本地构建SQLite数据库进行复杂查询。这种多层次访问设计兼顾了从初学者到专业开发者的不同需求,为医疗数据工具的创新提供了坚实基础。
背景与挑战
背景概述
在医疗健康信息学领域,电子健康记录(EHR)数据对于推动临床研究、机器学习模型开发及医疗决策支持系统至关重要。TinyEHR数据集由研究人员或机构基于MIMIC-IV临床数据库演示版构建,旨在为学习、实验和原型设计提供便捷资源。该数据集包含100名合成患者的记录,以MIMIC-IV和OMOP CDM v5.3.1两种标准化格式呈现,分别涵盖33和23个数据表,并辅以4,580条合成临床笔记。其创建源于降低真实EHR数据访问门槛的需求,通过开源许可促进健康数据工具的快速迭代与创新,对医疗人工智能和教育领域具有显著影响力。
当前挑战
TinyEHR数据集致力于解决电子健康记录分析中的核心挑战,包括数据标准化、隐私保护下的模型训练以及跨机构数据互操作性。在构建过程中,挑战主要集中于从MIMIC-IV演示版生成高质量合成数据,确保其统计特性与真实临床分布一致,同时避免患者隐私泄露。此外,将原始数据转换为OMOP CDM格式需处理复杂的映射逻辑,以维持语义完整性和临床实用性。合成临床笔记的生成也需平衡文本多样性与医学准确性,以支持自然语言处理任务。
常用场景
经典使用场景
在医疗健康数据科学领域,TinyEHR数据集常被用于教学与原型开发。该数据集基于MIMIC-IV临床数据库衍生,包含100名患者的合成电子健康记录,覆盖结构化数据与临床文本。研究人员和开发者借助其轻量级特性,能够快速搭建数据管道,实践SQL查询、机器学习模型训练等任务,而无需面对真实临床数据访问的复杂合规要求。
实际应用
在实际应用中,TinyEHR可作为医疗信息系统开发的测试床。工程师利用其MIMIC-IV和OMOP CDM双格式支持,能够验证数据转换流程、评估临床决策支持算法的可行性,或培训医护人员使用数据分析工具。其内置的合成临床笔记进一步拓展了应用场景,例如用于电子病历文本挖掘模型的初步调试与性能评估。
衍生相关工作
围绕TinyEHR,已涌现出一系列教育与工具类工作。例如,基于该数据集开发的Python软件包简化了数据加载与探索流程;在线查询平台为初学者提供了交互式SQL练习环境。这些衍生工具共同构建了一个低门槛的生态系统,支持更多研究者快速入门健康数据科学,并可能启发后续针对合成数据质量评估、跨格式映射优化等方向的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作