CEHR-BERT 数据集

github2024-09-25 更新2024-09-27 收录

下载链接：

https://github.com/knatarajan-lab/cehrbert_data

下载链接

链接失效反馈

官方服务：

资源简介：

CEHR-BERT 数据集是为结构化电子健康记录（EHR）数据开发的预训练和微调数据集。该数据集通过聚合和按时间顺序构建患者的所有医疗代码，并插入人工时间标记（ATT）来表示访问之间的时间间隔。此外，还添加了特殊标记（VS 和 VE）来表示访问的开始和结束。

The CEHR-BERT dataset is a pre-training and fine-tuning dataset developed for structured electronic health record (EHR) data. This dataset aggregates all medical codes of patients, arranges them in chronological order, and inserts artificial time tags (ATT) to indicate the time intervals between visits. Additionally, special tokens VS and VE are added to represent the start and end of a medical visit respectively.

创建时间：

2024-09-07

原始信息汇总

cehrbert_data

数据集概述

cehrbert_data 是一个用于生成 CEHRbERT 预训练和微调数据集的 ETL 工具。CEHRbERT 是一个针对结构化电子健康记录（EHR）数据开发的大型语言模型。

数据处理

患者表示

每个患者的所有医疗代码按时间顺序聚合为一个序列。
根据两次就诊之间的时间间隔插入人工时间令牌（ATT）。
- 如果时间间隔小于28天，ATT 形式为 $W_n$，其中 n 表示周数（0-3）。
- 如果时间间隔在28天到365天之间，ATT 形式为 $M_n$，其中 n 表示月数（1-11）。
- 如果时间间隔超过365天，插入 LT 令牌。
添加两个特殊令牌 VS 和 VE 分别表示就诊的开始和结束。

数据生成

下载 OMOP 表为 parquet 文件
- 使用 Spark 应用程序从 SQL Server 下载 OMOP 表为 parquet 文件。
- 需要调整 db_properties.ini 中的属性以匹配数据库设置。
生成 CEHR-BERT 的训练数据
- 按时间顺序排列患者事件，并在每次就诊的开始和结束插入 VS 和 VE 令牌。
- 在两次就诊之间插入人工时间令牌（ATT）以表示时间间隔。
生成 hf 再入院预测任务
- 如果没有自己的 OMOP 实例，可以使用 Synthea 生成的患者序列数据样本。

联系信息

如有问题，请联系 CEHR-BERT@lists.cumc.columbia.edu。

引用

请在论文中引用以下工作：

Chao Pang, Xinzhuo Jiang, Krishna S. Kalluri, Matthew Spotnitz, RuiJun Chen, Adler Perotte, and Karthik Natarajan. "Cehr-bert: Incorporating temporal information from structured ehr data to improve prediction tasks." In Proceedings of Machine Learning for Health, volume 158 of Proceedings of Machine Learning Research, pages 239–260. PMLR, 04 Dec 2021.

搜集汇总

数据集介绍

构建方式

在构建CEHR-BERT数据集时，研究者们采用了精细的ETL工具，将结构化的电子健康记录（EHR）数据转化为适用于预训练和微调的数据集。具体而言，每个患者的所有医疗代码被按时间顺序聚合，并构建为序列。为捕捉时间信息，研究者在相邻的两次就诊之间插入了人工时间标记（ATT），根据时间间隔的不同，ATT的形式分为周（W_n）、月（M_n）和长期（LT）三种。此外，还引入了VS和VE标记，分别表示就诊的开始和结束，以明确界定就诊段落。

特点

CEHR-BERT数据集的显著特点在于其对时间信息的精细处理和结构化数据的完整保留。通过引入人工时间标记和就诊边界标记，数据集不仅能够捕捉到患者就诊的时间间隔，还能明确区分每次就诊的边界，从而为模型提供了更为丰富的上下文信息。此外，数据集的构建过程中还考虑了不同时间间隔的分类，使得模型能够更好地理解和利用时间序列数据。

使用方法

使用CEHR-BERT数据集时，首先需下载OMOP表并将其转换为parquet文件格式。随后，通过调整db_properties.ini文件中的属性以匹配数据库设置，用户可以生成训练数据。具体操作包括使用spark-submit命令运行相应的Python脚本，生成包含VS、VE和ATT标记的序列数据。此外，数据集还提供了预先生成的样本数据，方便用户进行测试和验证。

背景与挑战

背景概述

CEHR-BERT数据集是由Chao Pang等研究人员在2021年创建的，旨在通过整合结构化电子健康记录（EHR）中的时间信息，提升预测任务的性能。该数据集的核心研究问题是如何有效地将时间序列信息嵌入到语言模型中，以增强其在医疗数据处理中的应用。CEHR-BERT的开发不仅推动了医疗数据分析领域的发展，还为基于EHR的预测模型提供了新的方法论。

当前挑战

CEHR-BERT数据集在构建过程中面临多项挑战。首先，如何准确地从结构化EHR数据中提取和表示时间信息是一个关键问题。其次，在生成训练数据时，如何合理地插入人工时间标记（ATT）以反映访问之间的时间间隔，确保模型能够捕捉到时间依赖性。此外，数据集的构建还需要处理大规模数据的高效处理和存储问题，以及确保数据的质量和一致性。

常用场景

经典使用场景

CEHR-BERT数据集的经典使用场景在于其能够处理结构化的电子健康记录（EHR）数据，通过引入人工时间令牌（ATT）和访问开始/结束令牌（VS/VE），将患者的医疗代码按时间顺序聚合，形成一个序列。这种序列化的处理方式使得BERT模型能够直接应用于EHR数据，从而在医疗预测任务中展现出卓越的性能。

实际应用

在实际应用中，CEHR-BERT数据集被广泛用于预测患者的再入院风险、疾病进展和治疗效果评估等任务。通过将EHR数据转化为序列化形式，该数据集支持了多种医疗预测模型的训练，从而在临床决策支持系统中发挥了重要作用，提高了医疗服务的效率和质量。

衍生相关工作

基于CEHR-BERT数据集，研究者们开发了多种衍生工作，如改进的医疗预测模型、时间序列分析方法和个性化医疗推荐系统。这些工作不仅扩展了CEHR-BERT的应用范围，还进一步验证了其在处理复杂医疗数据方面的有效性，为医疗领域的智能化发展提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集