five

PatientEG

收藏
arXiv2018-12-24 更新2024-06-21 收录
下载链接:
http://peg.ecustnlplab.com
下载链接
链接失效反馈
官方服务:
资源简介:
PatientEG数据集是由华东理工大学信息科学与工程学院和上海曙光医院联合创建,旨在通过事件图模型捕捉电子医疗记录中的医疗活动和时间关系。该数据集包含191,294个事件、3,429个不同实体和545,993个时间关系,数据来源于上海曙光医院的电子医疗记录。创建过程中,数据集与中文生物医学知识图谱链接,以规范化实体值并提供更多医学信息。PatientEG数据集主要应用于临床研究,如辅助诊断和治疗效果分析,支持复杂查询,并提供SPARQL端点以供在线访问。

The PatientEG dataset was jointly developed by the School of Information Science and Engineering, East China University of Science and Technology and Shanghai Shuguang Hospital, aiming to capture medical activities and temporal relationships in electronic medical records via event graph models. It contains 191,294 events, 3,429 distinct entities and 545,993 temporal relationships, with data sourced from the electronic medical records of Shanghai Shuguang Hospital. During the creation process, the dataset was linked to a Chinese biomedical knowledge graph to standardize entity values and provide additional medical information. The PatientEG dataset is primarily applied in clinical research scenarios including auxiliary diagnosis and therapeutic effect analysis, supports complex queries, and offers a SPARQL endpoint for online access.
提供机构:
华东理工大学信息科学与工程学院
创建时间:
2018-12-24
搜集汇总
数据集介绍
构建方式
PatientEG数据集的构建基于患者事件图(Patient Event Graph)模型,该模型旨在捕捉电子病历(EMRs)的特性。首先,通过数据预处理步骤解决了电子病历中存在的数据质量问题,如缺失值、单位不一致和非标准值等。随后,使用W3C推荐的RDB2RDF映射标准将关系数据转换为RDF三元组。在此基础上,建立了五种类型的医疗事件之间的五种时间关系。最后,将数据集中的实体与中文生物医学知识图谱(CBioMedKG)进行实例匹配,以规范实体值并利用实体的同义词、下位词和缩写。整个流程包括数据预处理、事件三元组生成、时间关系建立和实例匹配四个步骤。
使用方法
用户可以通过SPARQL端点访问PatientEG数据集,并使用SPARQL查询语言进行查询。数据集还提供了在线查询和一些示例查询,方便用户理解和应用。此外,数据集还提供了详细的文档和说明,帮助用户更好地使用数据集。
背景与挑战
背景概述
在临床研究领域,电子病历(EMR)作为记录患者医疗活动的核心载体,其重要性日益凸显。然而,传统的关联数据模型在处理医疗活动及其时间关系方面存在语义定义不明确、查询效率低下等问题。为了解决这些问题,PatientEG数据集应运而生。该数据集由华东理工大学信息科学与工程学院和上海曙光医院的研究人员于2018年创建,旨在通过事件图模型捕捉EMR的特点,为临床研究提供便利。PatientEG模型定义了五种医疗实体、五种医疗事件和五种时间关系,并构建了一个包含191,294个事件、3,429个不同实体和545,993个时间关系的数据集。此外,该数据集还与中文生物医学知识图谱进行了链接,以规范化实体值并提供更多医疗信息。PatientEG数据集的发布为临床研究提供了重要的数据支持,有助于辅助诊断、治疗效果分析等领域的发展。
当前挑战
PatientEG数据集在构建过程中面临了多个挑战。首先,EMR中的医疗实体往往孤立且值不规范,存在同义词、下位词和缩写等问题,导致查询构建复杂。其次,许多临床任务涉及分布在多个表中的各种医疗活动,频繁的多表连接查询效率低下。最后,EMR中的时间关系对于追踪患者的健康状况、分析治疗效果和副作用具有重要意义,但传统的关联数据模型无法表达这些时间关系。为了解决这些问题,PatientEG数据集采用了事件图模型,通过定义医疗实体、医疗事件和时间关系,为临床研究提供了更加直观和高效的查询方式。同时,该数据集还与中文生物医学知识图谱进行了链接,以规范化实体值并提供更多医疗信息。
常用场景
经典使用场景
PatientEG数据集通过构建基于事件图的医疗活动模型,对电子病历(EMR)中的医疗实体、医疗事件和事件之间的时间关系进行了明确的定义。这一模型有助于临床研究中辅助诊断和疗效分析等复杂查询的构建和执行,为临床研究提供了便利。
解决学术问题
PatientEG数据集解决了现有关系数据模型在电子病历(EMR)中缺乏对医疗活动明确和准确语义定义的问题。此外,该数据集还解决了多表连接查询频繁且效率低下的问题,以及关系数据模型无法表达事件之间时间关系的问题。
实际应用
PatientEG数据集在实际应用中,通过链接实体与中文生物医学知识图谱(CBioMedKG),实现了实体值的规范化,并提供了更丰富的医疗信息。这使得基于领域知识的患者查询构建成为可能,例如辅助诊断和疗效分析等。
数据集最近研究
最新研究方向
在医疗信息领域,电子病历(EMRs)的广泛应用产生了海量的数据,但这些数据通常以关系数据库的形式存储,难以进行高效的临床研究。PatientEG数据集的提出,旨在通过事件图模型来捕捉EMRs中的医疗活动和时间关系,为临床研究提供便利。PatientEG模型定义了五种医疗实体、五种医疗事件和五种时间关系,构建了一个包含191,294个事件、3,429个实体和545,993个时间关系的数据集。此外,PatientEG数据集还与中文生物医学知识图谱(CBioMedKG)进行了链接,以规范化实体值并提供更丰富的医学信息。基于PatientEG数据集,研究人员可以进行复杂的临床研究,如辅助诊断和治疗有效性分析。PatientEG数据集的发布和SPARQL端点的提供,为临床研究提供了宝贵的数据资源。
相关研究论文
  • 1
    PatientEG Dataset: Bringing Event Graph Model with Temporal Relations to Electronic Medical Records华东理工大学信息科学与工程学院 · 2018年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作