five

EHRCon

收藏
arXiv2024-06-24 更新2024-06-26 收录
下载链接:
https://github.com/dustn1259/EHRCon
下载链接
链接失效反馈
官方服务:
资源简介:
EHRCon是由韩国科学技术院和三星医疗中心合作开发的数据集,旨在检查电子健康记录中非结构化笔记与结构化表格之间的一致性。该数据集包含3,943个实体,覆盖105份临床笔记,通过与MIMIC-III数据库中的数据进行对比标注。EHRCon提供两种版本,分别基于MIMIC-III和OMOP CDM架构,以增强通用性和适用性。数据集主要用于解决医疗记录中数据不一致的问题,确保患者安全,避免医疗错误。

EHRCon is a dataset developed in collaboration between the Korea Advanced Institute of Science and Technology (KAIST) and Samsung Medical Center. It aims to verify the consistency between unstructured notes and structured tables in electronic health records (EHRs). This dataset contains 3,943 entities spanning 105 clinical notes, and was annotated through comparison with data from the MIMIC-III database. EHRCon provides two versions based on the MIMIC-III and OMOP CDM architectures respectively to enhance its generality and applicability. The dataset is primarily used to address data inconsistency issues in medical records, ensuring patient safety and preventing medical errors.
提供机构:
韩国科学技术院
创建时间:
2024-06-24
原始信息汇总

EHRCon

  • 数据集名称: EHRCon
  • 代码可用性: 代码即将发布
搜集汇总
数据集介绍
main_image_url
构建方式
EHRCon数据集是通过与医疗专业人员合作,利用MIMIC-III电子健康记录数据集构建的。数据集中的实体是通过人工注释的方式,将105份临床笔记中的3,943个实体与数据库条目进行比较,以检查其一致性。为了提高适用性和泛化性,EHRCon提供了两个版本,一个使用原始的MIMICIII模式,另一个使用OMOP CDM模式。
特点
EHRCon数据集的特点是包括手动注释的实体,这些实体是根据它们与数据库条目的匹配程度被标记为一致或不一致。数据集还提供了关于不一致发生的具体表格和列的详细信息。此外,EHRCon包含两个版本,一个基于原始MIMICIII模式,另一个基于OMOP CDM模式,以适应不同的数据模式。
使用方法
使用EHRCon数据集的方法包括使用大型语言模型(LLM)的能力来验证电子健康记录中临床笔记和数据库表之间的一致性。CheckEHR框架利用一个八阶段的过程,包括笔记分割、命名实体识别、时间过滤、表识别、伪表创建、自我校正、值重定格式化和查询生成。这个框架在少样本和零样本设置中表现出有希望的结果,并提供了代码,可以在https://github.com/dustn1259/EHRCon上获取。
背景与挑战
背景概述
电子健康记录(EHR)是医院中存储患者医疗信息的数字数据集,它结合了结构化数据(如药物)和详细的临床笔记(如医生笔记)。这些元素对于直接的数据检索和深入了解患者护理至关重要。然而,由于EHR系统设计的不直观和人为错误,这些数据往往存在不一致之处,这对患者安全构成严重风险。为了解决这个问题,研究人员开发了EHRCon数据集,该数据集旨在确保EHR中结构化表格和非结构化笔记之间的一致性。EHRCon是在医疗专业人士的协作下使用MIMIC-III EHR数据集制作的,包括对105份临床笔记中3943个实体的手动注释,这些笔记与数据库条目进行了一致性检查。EHRCon有两个版本,一个使用原始的MIMICIII架构,另一个使用OMOP CDM架构,以增加其适用性和泛化性。此外,利用大型语言模型的推理能力,我们引入了CheckEHR,这是一个新颖的框架,用于验证临床笔记和数据库表之间的一致性。CheckEHR采用八个阶段的流程,在少样本和零样本设置中都显示出有希望的结果。代码可在https://github.com/dustn1259/EHRCon获得。
当前挑战
EHRCon数据集和相关的研究面临着几个关键挑战。首先,EHR数据的不一致性是一个复杂的问题,需要更全面和可扩展的解决方案。其次,现有的方法主要集中在单一声明和小型单表的一致性检查上,而EHRs需要处理大规模异构关系数据库中的复杂任务。此外,EHR数据的结构化和非结构化特性使得自动化系统难以理解临床笔记并准确地提取实体。最后,尽管CheckEHR框架在某些情况下取得了进展,但NER(命名实体识别)的准确性和LLMs(大型语言模型)的推理能力仍然有限,需要进一步改进。
常用场景
经典使用场景
在电子健康记录(EHR)中,结构化数据与临床笔记之间的一致性是确保患者安全和护理质量的关键。EHRCon数据集旨在验证EHR中结构化表格与非结构化临床笔记之间的一致性。该数据集由3943个实体组成,跨越105个临床笔记,并与数据库条目进行了对比以检查一致性。EHRCon提供了两个版本,一个使用原始的MIMICIII模式,另一个使用OMOP CDM模式,以增加其适用性和泛化能力。此外,通过利用大型语言模型的推理能力,我们引入了CheckEHR框架,用于验证EHR中临床笔记与数据库表格之间的一致性。CheckEHR采用了八个阶段的流程,并在少样本和零样本设置中表现出良好的结果。
衍生相关工作
EHRCon数据集衍生了许多相关工作,包括CheckEHR框架,该框架利用大型语言模型来验证EHR中临床笔记与数据库表格之间的一致性。此外,EHRCon还可以用于开发其他自动化工具,如用于识别和纠正EHR中不一致性的机器学习模型。这些工具可以帮助医疗保健提供者提高EHR的准确性和可靠性,从而提高患者护理的质量。
数据集最近研究
最新研究方向
EHRCon数据集的最新研究方向主要集中在确保电子健康记录(EHR)中结构化表格和非结构化笔记之间的一致性。该数据集通过手动标注MIMIC-III EHR数据集中的3,943个实体,并与数据库条目进行一致性检查,旨在解决由于EHR系统设计不直观和人为错误导致的潜在数据不一致问题。EHRCon数据集具有两个版本,分别使用原始MIMICIII模式和OMOP CDM模式,以增强其适用性和泛化能力。此外,研究还引入了CheckEHR框架,该框架利用大型语言模型的推理能力来验证临床笔记和数据库表之间的一致性。CheckEHR包含八个阶段的流程,并在少样本和零样本设置中显示出有希望的结果。该研究为自然语言处理(NLP)和医疗保健领域的自动化和可靠的健康记录文档系统奠定了基础,最终提高了患者安全性和简化了医疗保健流程。
相关研究论文
  • 1
    EHRCon: Dataset for Checking Consistency between Unstructured Notes and Structured Tables in Electronic Health Records韩国科学技术院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作