DrugEHRQA

Name: DrugEHRQA
Creator: 佛罗里达大学计算机与信息科学与工程系，德克萨斯大学健康科学中心休斯顿分校生物医学信息学院
Published: 2022-05-03 11:50:50
License: 暂无描述

arXiv2022-05-03 更新2024-06-21 收录

下载链接：

https://github.com/jayetri/DrugEHRQA-A-QuestionAnswering-Dataset-on-Structured-and-UnstructuredElectronic-Health-Records

下载链接

链接失效反馈

官方服务：

资源简介：

DrugEHRQA是由佛罗里达大学和德克萨斯大学健康科学中心休斯顿分校的研究团队开发的首个多模态电子健康记录问答数据集，包含超过70,000个药物相关的问题-答案对。该数据集利用公开的电子健康记录（EHR）中的结构化表格和非结构化临床笔记来生成问答对，旨在为多模态QA系统提供基准，并探索利用非结构化临床数据改善EHR结构化数据问答的新研究方向。数据集的创建过程涉及自动生成基于模板的问答对，通过分析和验证确保数据集的质量和实用性。该数据集主要应用于医疗领域，帮助医生诊断和患者获取健康相关信息。

DrugEHRQA is the first multimodal electronic health records (EHR) question answering dataset developed by research teams from the University of Florida and the University of Texas Health Science Center at Houston. It contains over 70,000 drug-related question-answer pairs. This dataset leverages structured tables and unstructured clinical notes from publicly available electronic health records to generate question-answer pairs, aiming to provide a benchmark for multimodal QA systems and explore new research directions for improving question answering over structured EHR data using unstructured clinical data. The dataset creation process involves automatically generating template-based question-answer pairs, with the quality and practicality of the dataset ensured through analysis and validation. This dataset is primarily applied in the medical field, assisting doctors in diagnosis and helping patients obtain health-related information.

提供机构：

佛罗里达大学计算机与信息科学与工程系，德克萨斯大学健康科学中心休斯顿分校生物医学信息学院

创建时间：

2022-05-03

搜集汇总

数据集介绍

构建方式

在电子健康记录（EHR）领域，多模态数据融合为医疗问答系统带来了新的挑战与机遇。DrugEHRQA数据集的构建采用了一种创新的自动化模板方法，基于公开的MIMIC-III数据库，巧妙整合了结构化表格与非结构化临床笔记。该过程首先从n2c2存储库中的药物相关注释中提取实体与属性，随后通过九种预定义的自然语言问题模板与对应的SQL查询模板进行槽位填充，生成超过70,000个问题-答案对。为了增强数据多样性，每个问题模板还衍生出三种释义变体，并通过规则驱动的多模态答案选择机制，自动确定来自结构化或非结构化数据的最佳答案，从而有效避免了传统人工标注的繁重负担。

特点

DrugEHRQA作为首个专注于药物相关查询的多模态EHR问答数据集，其显著特点在于同时涵盖了结构化表格与非结构化临床笔记两种数据形态。数据集不仅提供了自然语言问题、对应的SQL查询以及从单模态或双模态中检索的答案，还包含了自动生成的多模态答案标签。其问题模板覆盖了药物剂量、强度、给药途径等多种临床场景，且SQL查询复杂度分布广泛，包含大量嵌套查询等挑战性结构。尤为重要的是，数据集中约18%的问题在两种模态中均存在答案，其中部分答案呈现重叠或互补关系，这为研究多模态信息的一致性验证与上下文增强提供了宝贵资源。

使用方法

该数据集为开发与评估多模态EHR问答系统提供了基准平台。研究者可利用其进行单模态问答任务验证，例如使用TREQS或RAT-SQL模型处理结构化表格的文本到SQL转换，或采用BERT及ClinicalBERT模型从临床笔记中抽取答案。对于涉及双模态的问题，可借鉴数据集提供的多模态答案选择规则，或构建如MultimodalEHRQA的基线模型，通过模态选择网络判断应优先采用表格还是文本模态进行回答。此外，数据集的释义变体可用于测试模型对语言变化的鲁棒性，而其复杂的SQL查询结构则为提升模型处理嵌套与多表关联能力提供了测试场景。

背景与挑战

背景概述

电子健康记录（EHR）作为患者医疗信息的数字化载体，其结构化表格与非结构化临床文本蕴含了互补且复杂的医学知识。然而，传统问答系统多局限于单一模态，难以充分利用EHR中多源信息的协同价值。在此背景下，由佛罗里达大学和德克萨斯大学健康科学中心的研究团队于2022年共同创建的DrugEHRQA数据集应运而生。该数据集基于公开的MIMIC-III重症监护数据库，首次整合了结构化表格与非结构化临床笔记，生成了超过七万条药物相关问答对。其核心研究目标在于构建一个多模态EHR问答基准，推动能够融合异构医疗信息的智能问答系统发展，为临床决策支持与患者健康查询提供更可靠的技术基础。

当前挑战

DrugEHRQA致力于解决从多模态电子健康记录中准确回答药物相关查询的核心挑战。这一领域问题的复杂性体现在：结构化数据（如处方表）与非结构化文本（如临床笔记）中的信息可能重复、矛盾或互为补充，系统需具备模态选择与信息融合能力以生成可靠答案。在数据集构建过程中，研究者面临多重挑战：首先，缺乏现成的多模态EHR标注数据，手动标注耗时费力；其次，需设计自动化方法从MIMIC-III数据库及其关联的n2c2挑战数据集中提取药物属性并生成问答对，同时确保模板的多样性与答案的准确性；再者，处理复杂嵌套SQL查询以及为同一问题生成自然语言复述，以提升数据集的现实性与鲁棒性。

常用场景

经典使用场景

在医疗信息学领域，DrugEHRQA数据集为多模态问答系统提供了关键基准。该数据集通过整合MIMIC-III电子健康记录中的结构化表格与非结构化临床笔记，构建了超过七万条药物相关问答对。其经典应用场景在于评估模型从异构医疗数据源中检索答案的能力，特别是针对药物剂量、用药原因等复杂查询，系统需自动判断从表格或文本中提取更可靠的信息，从而模拟真实临床决策中医生综合多方数据的过程。

实际应用

在实际医疗环境中，DrugEHRQA支持智能临床辅助系统的开发。例如，医生可通过自然语言查询患者用药历史，系统自动从病历表格与临床笔记中交叉验证答案，提升诊断效率与准确性。数据集涵盖的药物属性如剂量、用药原因等，有助于构建用药安全监测工具，识别潜在不良反应。此外，其多模态答案选择机制可应用于医疗机器人或患者自助查询平台，优化健康信息服务的可靠性。

衍生相关工作

基于DrugEHRQA，研究者拓展了多模态医疗问答的前沿工作。例如，MultimodalEHRQA基线模型结合模态选择网络与TREQS、BERT等工具，启发了后续跨模态联合训练框架的探索。数据集还促进了医疗文本到SQL解析技术的演进，如将RAT-SQL应用于嵌套查询处理。衍生研究进一步探索了临床笔记与表格的上下文互补机制，为emrQA、CliniQG4QA等单模态数据集提供了融合升级的范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集