EHRCon

Name: EHRCon
Creator: 韩国科学技术院
Published: 2024-06-24 14:26:50
License: 暂无描述

arXiv2024-06-24 更新2024-06-26 收录

下载链接：

https://github.com/dustn1259/EHRCon

下载链接

链接失效反馈

官方服务：

资源简介：

EHRCon是由韩国科学技术院和三星医疗中心合作开发的数据集，旨在检查电子健康记录中非结构化笔记与结构化表格之间的一致性。该数据集包含3,943个实体，覆盖105份临床笔记，通过与MIMIC-III数据库中的数据进行对比标注。EHRCon提供两种版本，分别基于MIMIC-III和OMOP CDM架构，以增强通用性和适用性。数据集主要用于解决医疗记录中数据不一致的问题，确保患者安全，避免医疗错误。

EHRCon is a dataset developed in collaboration between the Korea Advanced Institute of Science and Technology (KAIST) and Samsung Medical Center. It aims to verify the consistency between unstructured notes and structured tables in electronic health records (EHRs). This dataset contains 3,943 entities spanning 105 clinical notes, and was annotated through comparison with data from the MIMIC-III database. EHRCon provides two versions based on the MIMIC-III and OMOP CDM architectures respectively to enhance its generality and applicability. The dataset is primarily used to address data inconsistency issues in medical records, ensuring patient safety and preventing medical errors.

提供机构：

韩国科学技术院

创建时间：

2024-06-24

原始信息汇总

EHRCon

数据集名称: EHRCon
代码可用性: 代码即将发布

搜集汇总

数据集介绍

构建方式

EHRCon数据集是通过与医疗专业人员合作，利用MIMIC-III电子健康记录数据集构建的。数据集中的实体是通过人工注释的方式，将105份临床笔记中的3,943个实体与数据库条目进行比较，以检查其一致性。为了提高适用性和泛化性，EHRCon提供了两个版本，一个使用原始的MIMICIII模式，另一个使用OMOP CDM模式。

特点

EHRCon数据集的特点是包括手动注释的实体，这些实体是根据它们与数据库条目的匹配程度被标记为一致或不一致。数据集还提供了关于不一致发生的具体表格和列的详细信息。此外，EHRCon包含两个版本，一个基于原始MIMICIII模式，另一个基于OMOP CDM模式，以适应不同的数据模式。

使用方法

使用EHRCon数据集的方法包括使用大型语言模型（LLM）的能力来验证电子健康记录中临床笔记和数据库表之间的一致性。CheckEHR框架利用一个八阶段的过程，包括笔记分割、命名实体识别、时间过滤、表识别、伪表创建、自我校正、值重定格式化和查询生成。这个框架在少样本和零样本设置中表现出有希望的结果，并提供了代码，可以在https://github.com/dustn1259/EHRCon上获取。

背景与挑战

背景概述

电子健康记录（EHR）是医院中存储患者医疗信息的数字数据集，它结合了结构化数据（如药物）和详细的临床笔记（如医生笔记）。这些元素对于直接的数据检索和深入了解患者护理至关重要。然而，由于EHR系统设计的不直观和人为错误，这些数据往往存在不一致之处，这对患者安全构成严重风险。为了解决这个问题，研究人员开发了EHRCon数据集，该数据集旨在确保EHR中结构化表格和非结构化笔记之间的一致性。EHRCon是在医疗专业人士的协作下使用MIMIC-III EHR数据集制作的，包括对105份临床笔记中3943个实体的手动注释，这些笔记与数据库条目进行了一致性检查。EHRCon有两个版本，一个使用原始的MIMICIII架构，另一个使用OMOP CDM架构，以增加其适用性和泛化性。此外，利用大型语言模型的推理能力，我们引入了CheckEHR，这是一个新颖的框架，用于验证临床笔记和数据库表之间的一致性。CheckEHR采用八个阶段的流程，在少样本和零样本设置中都显示出有希望的结果。代码可在https://github.com/dustn1259/EHRCon获得。

当前挑战

EHRCon数据集和相关的研究面临着几个关键挑战。首先，EHR数据的不一致性是一个复杂的问题，需要更全面和可扩展的解决方案。其次，现有的方法主要集中在单一声明和小型单表的一致性检查上，而EHRs需要处理大规模异构关系数据库中的复杂任务。此外，EHR数据的结构化和非结构化特性使得自动化系统难以理解临床笔记并准确地提取实体。最后，尽管CheckEHR框架在某些情况下取得了进展，但NER（命名实体识别）的准确性和LLMs（大型语言模型）的推理能力仍然有限，需要进一步改进。

常用场景

经典使用场景

在电子健康记录(EHR)中，结构化数据与临床笔记之间的一致性是确保患者安全和护理质量的关键。EHRCon数据集旨在验证EHR中结构化表格与非结构化临床笔记之间的一致性。该数据集由3943个实体组成，跨越105个临床笔记，并与数据库条目进行了对比以检查一致性。EHRCon提供了两个版本，一个使用原始的MIMICIII模式，另一个使用OMOP CDM模式，以增加其适用性和泛化能力。此外，通过利用大型语言模型的推理能力，我们引入了CheckEHR框架，用于验证EHR中临床笔记与数据库表格之间的一致性。CheckEHR采用了八个阶段的流程，并在少样本和零样本设置中表现出良好的结果。

衍生相关工作

EHRCon数据集衍生了许多相关工作，包括CheckEHR框架，该框架利用大型语言模型来验证EHR中临床笔记与数据库表格之间的一致性。此外，EHRCon还可以用于开发其他自动化工具，如用于识别和纠正EHR中不一致性的机器学习模型。这些工具可以帮助医疗保健提供者提高EHR的准确性和可靠性，从而提高患者护理的质量。

数据集最近研究