RawMed

Name: RawMed
Creator: 韩国科学技术院（KAIST）
Published: 2025-07-10 00:22:22
License: 暂无描述

arXiv2025-07-10 更新2025-07-11 收录

下载链接：

https://github.com/eunbyeol-cho/RawMed

下载链接

链接失效反馈

官方服务：

资源简介：

RawMed数据集是一个多表时间序列电子健康记录（EHR）数据集，由韩国科学技术院（KAIST）和FuriosaAI合作创建。该数据集通过文本表示和压缩技术，能够捕获复杂结构和时间动态，并且预处理步骤最少。RawMed旨在解决电子健康记录中敏感个人信息的隐私问题，通过生成合成EHR数据集来支持医疗研究和应用。该数据集在两个开源EHR数据集上进行了验证，证明了其在保真度和实用性方面的优势。

RawMed is a multi-table time-series electronic health record (EHR) dataset jointly created by the Korea Advanced Institute of Science and Technology (KAIST) and FuriosaAI. This dataset adopts text representation and compression technologies to capture complex structures and temporal dynamics, with minimal preprocessing steps. RawMed aims to resolve the privacy issues of sensitive personal information in electronic health records, and supports medical research and applications by generating synthetic EHR datasets. The dataset has been validated on two open-source EHR datasets, proving its advantages in terms of fidelity and practical usability.

提供机构：

韩国科学技术院（KAIST）

创建时间：

2025-07-10

原始信息汇总

RawMed数据集概述

基本信息

数据集名称：RawMed

搜集汇总

数据集介绍

构建方式

RawMed数据集的构建采用了创新的文本表示与压缩技术，通过最小化预处理步骤来保留原始电子健康记录（EHR）的复杂结构和时间动态。具体而言，该框架将多表时间序列EHR数据转化为文本形式，避免了传统方法中的数值分箱、独热编码等预处理操作，从而减少了数据失真。随后，利用残差量化（Residual Quantization）技术在潜在空间中对文本化数据进行压缩，显著降低了计算复杂度，使得模型能够处理包含大量列的EHR数据集。最终生成的合成数据保留了原始数据库中的所有列和原始值，实现了高保真度的数据合成。

特点

RawMed数据集的核心特点在于其能够生成高度接近原始EHR的多表时间序列数据。与以往方法不同，RawMed无需依赖专家选择的特征子集，而是覆盖了所有原始数据列，从而提供了更广泛的下游任务适用性。此外，该数据集通过文本表示和压缩技术，有效捕捉了临床事件的复杂时间动态和跨表关系。其生成的数据在分布相似性、跨表交互和时间序列保真度等方面均表现出色，同时通过严格的隐私评估框架确保了数据的安全性。

使用方法

RawMed数据集的使用方法主要包括三个步骤：首先，用户可通过框架提供的生成模型合成多表时间序列EHR数据，这些数据可直接用于各类医疗AI研究。其次，合成数据需经过后处理步骤，包括事件级验证和患者级筛选，以确保生成的表格在结构和语义上与真实EHR一致。最后，用户可利用提出的评估框架对合成数据质量进行全面检验，包括单表统计评估、跨表时间动态分析和临床效用验证。该框架支持以GenHPF或MEDS-TAB等多种表示形式进行下游任务建模，为临床预测、信息检索等应用提供灵活的数据基础。

背景与挑战

背景概述

RawMed是由KAIST和FuriosaAI的研究团队于2025年提出的首个多表时序电子健康记录(EHR)生成框架，旨在解决医疗数据隐私保护与共享利用之间的核心矛盾。该数据集创新性地采用基于文本表示和残差量化的技术，实现了对原始EHR数据的低预处理合成，完整保留了数据库所有字段和原始值。相较于传统方法依赖专家特征选择和复杂预处理，RawMed通过捕捉医疗事件间的复杂结构和时序动态，为临床预测、信息检索等医疗AI研究提供了更接近真实场景的数据支持，显著提升了合成数据的下游任务适用性。

当前挑战

在领域问题层面，RawMed需要解决多表时序EHR数据的三重挑战：1)跨表关联建模的复杂性，要求同时保持实验室检查、处方用药等多表间的逻辑一致性；2)长序列时序依赖的捕捉，需准确重建临床事件的时间间隔分布；3)异构数据兼容性，需处理数值型检验结果与文本型医嘱的混合表征。在构建过程中面临文本化表示带来的序列膨胀问题，通过残差量化将原始序列压缩84%仍保持语义完整性，并设计新型评估框架解决多表关系、时序保真度和隐私保护的多维度质量验证难题。

常用场景

经典使用场景

RawMed数据集在电子健康记录（EHR）合成领域具有广泛的应用场景，特别是在需要生成多表时间序列EHR数据的研究中。该数据集通过文本化表示和压缩技术，能够捕捉复杂的结构和时间动态，同时最小化预处理需求。这使得RawMed在需要高保真度合成EHR数据的研究中表现出色，例如在临床预测模型、信息检索和问答系统等领域。

衍生相关工作

RawMed的推出催生了一系列相关研究，特别是在多表时间序列EHR数据生成和评估框架方面。例如，基于RawMed的评估框架被广泛应用于其他合成EHR数据的研究中，以评估其分布相似性、表间关系、时间动态和隐私保护能力。此外，RawMed的文本化表示和压缩技术也为其他领域的表格数据生成提供了新的思路和方法。

数据集最近研究