TinyEHR
收藏Hugging Face2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/vidulpanickan/TinyEHR
下载链接
链接失效反馈官方服务:
资源简介:
TinyEHR 是一个包含 100 名患者电子健康记录的数据集,专为学习、实验和原型化医疗数据工具而构建。数据集包含来自真实去标识化医院记录的结构化数据(源自 MIMIC-IV Demo),日期已调整为现实的日历年份,并包含 4,580 份根据患者住院资料生成的临床笔记。数据以两种格式提供:1) MIMIC-IV 原生格式(33 张表,约 140 万行),保留原始医院数据模式;2) OMOP CDM v5.3.1 标准研究格式(32 张表,约 47.2 万行),使用标准化医学术语。数据集特别适用于医疗时间线重建、出院摘要生成、ICD 代码预测、药物-诊断交互查询等任务,也可用于 SQL 实践和医疗数据结构学习。需要注意的是,该数据集仅包含单一机构(波士顿贝斯以色列女执事医疗中心)的有限样本,临床笔记为生成内容而非真实记录。数据集采用 Open Database License (ODbL-1.0) 许可。
创建时间:
2026-03-28
原始信息汇总
TinyEHR 数据集概述
数据集基本信息
- 数据集名称:TinyEHR
- 许可证:Open Data Commons Open Database License v1.0 (ODbL-1.0)
- 主要语言:英语 (en)
- 数据规模:1M < n < 10M (数据条目在100万到1000万之间)
- 任务类别:文本生成 (text-generation)、特征提取 (feature-extraction)
- 标签:医疗 (medical)、临床 (clinical)、电子健康记录 (ehr)、MIMIC、OMOP、医疗保健 (healthcare)、智能体 (agentic)、临床记录 (clinical-notes)、临床自然语言处理 (clinical-nlp)
- 数据来源:基于真实去标识化的医院记录 (MIMIC-IV Demo),来自美国波士顿贝斯以色列女执事医疗中心。
数据内容与结构
TinyEHR 是一个包含 100名患者 的电子健康记录数据集,旨在用于学习、实验和原型开发医疗数据工具。
数据格式
数据集以两种格式提供,包含相同的100名患者的临床信息,仅组织形式不同。
-
MIMIC-IV 格式 (
tinyehr_mimic_format)- 表数量:33张表
- 总行数:约140万行
- 遵循的架构:MIMIC-IV 原生架构
- 标识符:原始标识符 (
subject_id,hadm_id) - 表分类:
- 医院数据表 (22张):patients, admissions, diagnoses_icd, procedures_icd, hcpcsevents, prescriptions, pharmacy, labevents, microbiologyevents, drgcodes, services, transfers, d_labitems, d_icd_diagnoses, d_icd_procedures, d_hcpcs, provider, emar, emar_detail, poe, poe_detail, omr
- ICU数据表 (9张):chartevents, procedureevents, outputevents, datetimeevents, inputevents, ingredientevents, icustays, d_items, caregiver
- 临床记录表 (1张):noteevents (包含4,580条临床记录,涵盖14种类型)
- 元数据表 (1张):date_offsets
-
OMOP CDM v5.3.1 格式 (
tinyehr_omop_format)- 表数量:32张表 (其中23张有数据,9张为空占位表)
- 总行数:约47.2万行
- 遵循的架构:OMOP 通用数据模型 v5.3.1
- 标识符:哈希化标识符 (
person_id,visit_occurrence_id) - 表分类:
- 临床数据表 (13张):person, death, observation_period, visit_occurrence, visit_detail, condition_occurrence, drug_exposure, procedure_occurrence, device_exposure, measurement, observation, note, specimen
- 衍生数据表 (3张):condition_era, drug_era, dose_era
- 医疗系统数据表 (2张):location, care_site
- 词汇表 (3张):2b_concept, 2b_concept_relationship, 2b_vocabulary
- 元数据表 (2张):cdm_source, fact_relationship
- 空表 (CDM占位表,9张):attribute_definition, cohort, cohort_attribute, cohort_definition, cost, metadata, note_nlp, payer_plan_period, provider
关键数据特征
- 临床记录:包含4,580条临床记录,涵盖出院摘要、医生病程记录、护理评估、放射学报告等14种类型。这些记录是根据每位患者住院期间的个人资料生成的。
- 医学编码格式:
- MIMIC格式中的诊断和操作代码包含小数点 (例如
413.9,39.61),以匹配临床实践和医学编码教材中的呈现方式。 - OMOP格式中的诊断代码不包含小数点 (例如
4139),以匹配账单和保险索赔中的格式。OMOP的source_value字段未被修改。
- MIMIC格式中的诊断和操作代码包含小数点 (例如
- 数据类型:医学代码(诊断、药物、操作、实验室代码)存储为文本字符串,以保留前导零和格式。患者和就诊ID保持为数字。OMOP中的可为空ID列使用Int64以保留64位精度。
- 日期处理:所有日期已从2100+范围偏移到现实的2010s-2020s范围,使用每位患者的偏移量。偏移量保存在
metadata/date_offsets.csv中。
数据获取与使用
- Python包安装:
pip install tinyehr - 从HuggingFace直接下载:访问 https://huggingface.co/datasets/vidulpanickan/TinyEHR 获取Parquet文件。
- 在线探索:可通过 https://tinyehr.org 运行SQL查询和浏览数据。
- 依赖:主要依赖
pandas和pyarrow。
主要用途
- 通过多表连接重建患者时间线。
- 根据结构化数据生成出院摘要。
- 根据临床记录预测ICD代码。
- 跨处方和诊断查询药物-诊断相互作用。
- 构建患者队列 (例如,查找所有ICU住院时间超过3天的糖尿病患者)。
- 使用真实的医院数据结构进行SQL练习。
- MIMIC-IV与OMOP格式的比较和映射练习。
已知限制
- 仅包含100名患者:这是一个用于学习和原型开发的数据集,不代表任何人群的统计特征。
- 临床记录是生成的:记录是由大型语言模型根据每位患者的结构化数据创建的,并非由真实的临床医生书写。
- 单一机构数据:所有数据均来自美国一家学术医疗中心(波士顿贝斯以色列女执事医疗中心)。
- OMOP词汇子集:OMOP格式使用了完整OHDSI Athena词汇表的一个子集,仅限于这100名患者所需的概念。
源数据引用
- Johnson, A., Bulgarelli, L., Pollard, T., Horng, S., Celi, L. A., & Mark, R. (2023). MIMIC-IV, a freely accessible electronic health record dataset. Scientific Data, 10(1), 1. https://doi.org/10.1038/s41597-022-01899-x
- Johnson, A., Bulgarelli, L., Pollard, T., Horng, S., Celi, L. A., & Mark, R. (2023). MIMIC-IV Clinical Database Demo (version 2.2). PhysioNet. https://doi.org/10.13026/dp1f-ex47
- Kallfelz, M., Tsvetkova, A., Pollard, T., Kwong, M., Lipori, G., Huser, V., Osborn, J., Hao, S., & Williams, A. (2021). MIMIC-IV Demo Data in the OMOP Common Data Model (version 0.9). PhysioNet. https://doi.org/10.13026/p1f5-7x35
更多信息
- 详细数据说明:https://github.com/vidulpanickan/TinyEHR/blob/main/ABOUT_THE_DATA.md
- 项目GitHub仓库:https://github.com/vidulpanickan/TinyEHR
搜集汇总
数据集介绍

构建方式
在电子健康记录研究领域,TinyEHR数据集以真实临床数据为基础精心构建。该数据集从MIMIC-IV演示数据库中选取了100名患者的脱敏医疗记录,通过系统性的日期偏移处理,将原始数据中的时间信息调整至符合现实日历年份。同时,数据集引入了基于患者结构化信息生成的临床文本,涵盖出院摘要、医师病程记录等多种典型医疗文书类型,从而形成了兼具结构化与文本信息的复合型资源。
使用方法
对于研究者和开发者而言,TinyEHR提供了灵活多样的使用途径。通过Python软件包可直接将数据加载为pandas DataFrame,或从HuggingFace平台下载Parquet格式文件。数据集特别适用于医疗时间线重建、临床文本生成、疾病代码预测等研究场景,同时也可作为医疗SQL查询练习的真实数据源。在线探索平台支持交互式数据浏览,为快速原型开发提供了便利环境。
背景与挑战
背景概述
在医疗人工智能领域,电子健康记录(EHR)数据的获取与标准化处理是推动临床决策支持系统发展的关键。TinyEHR数据集应运而生,它源自麻省理工学院计算生理学实验室发布的MIMIC-IV演示数据,由研究人员Vidul Panickal等人于近年构建。该数据集旨在为机器学习与自然语言处理模型提供一个轻量级、易于访问的真实医疗数据样本,核心研究问题聚焦于如何利用有限但结构丰富的患者记录,支持医疗数据工具的快速原型开发与算法验证。通过提供MIMIC-IV原生格式与OMOP通用数据模型双版本,TinyEHR促进了医疗信息学中的跨格式数据映射研究,为临床文本生成、特征提取等任务奠定了实践基础。
当前挑战
TinyEHR所针对的领域挑战在于电子健康记录的高维异构性整合与隐私保护之间的平衡。具体而言,医疗数据常包含时序性事件、多模态文本(如临床笔记)与标准化编码(如ICD诊断代码),如何在这些复杂结构中提取连贯的临床叙事是一大难题。在数据集构建过程中,挑战主要体现在数据脱敏与格式转换:原始MIMIC-IV数据需进行日期偏移以保护患者时间隐私,同时将ICD代码转换为临床实践常用的带小数点格式;而转换为OMOP模型时,需将分散的医疗事件映射到统一的概念体系,这一过程涉及大量词汇标准化与关系重构工作。此外,临床笔记由大型语言模型生成而非真实记录,这引入了合成数据与真实临床叙述之间的表征差距。
常用场景
经典使用场景
在临床信息学领域,TinyEHR数据集作为电子健康记录的微型化范例,其经典使用场景聚焦于医疗数据工具的快速原型开发与算法验证。研究者常利用其包含的100名患者结构化数据与临床文本,构建患者时间线重建模型,通过多表关联还原诊疗历程;同时,该数据集支持从结构化数据自动生成出院摘要,或基于临床笔记预测ICD诊断编码,为医疗自然语言处理任务提供轻量级实验平台。
解决学术问题
该数据集有效应对了医疗人工智能研究中数据获取门槛高、隐私约束严格的普遍困境。通过提供真实脱敏的医院记录与标准化OMOP格式,它使得研究者能够在合规框架下探索诊断编码映射、药物相互作用分析、患者队列构建等核心问题。其双重数据格式设计,既保留了MIMIC-IV原生临床细节,又兼容跨机构研究所需的通用数据模型,显著降低了医疗数据科学的方法验证成本。
实际应用
在实际医疗技术开发中,TinyEHR为临床决策支持系统、自动化病历分析工具提供了即用型测试数据。开发团队可将其集成至智能代理系统中,模拟真实电子健康记录的查询与推理流程;医疗机构亦能借此开展内部数据分析人员的SQL操作培训,理解医院数据复杂结构。其开放的访问权限与清晰的数据模式,加速了从研究原型到临床应用的转化进程。
数据集最近研究
最新研究方向
在临床信息学领域,电子健康记录(EHR)数据集正成为推动医疗人工智能发展的核心资源。TinyEHR作为一个小规模、多格式的EHR数据集,其最新研究方向聚焦于智能体驱动的临床决策支持系统构建。研究者利用其MIMIC-IV与OMOP CDM双格式特性,探索跨模态医疗数据融合技术,旨在实现从结构化数据到临床文本的自动生成与解析。这一趋势呼应了当前医疗大模型对高质量、标准化训练数据的迫切需求,特别是在临床笔记生成、疾病代码预测等任务中,TinyEHR为原型验证提供了低门槛的真实数据环境。其集成生成式临床笔记的特点,也促进了合成数据与真实医疗逻辑结合的前沿探索,对提升医疗AI系统的可解释性与可靠性具有重要价值。
以上内容由遇见数据集搜集并总结生成



