EHRXQA|电子健康记录数据集|医学影像数据集

arXiv2023-12-26 更新2024-07-30 收录

电子健康记录

医学影像

下载链接：

https://github.com/baeseongsu/ehrxqa

下载链接

链接失效反馈

资源简介：

一个结合结构化电子健康记录和胸部X光图像的新型多模态问答数据集，旨在促进电子健康记录问答系统中的图像和表格模态的联合推理。

创建时间：

2023-10-28

原始信息汇总

EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images

概述

EHRXQA是一个结合了结构化电子健康记录（EHRs）和胸部X光图像的多模态问答数据集，旨在促进EHR问答系统中图像和表格模态的联合推理。该数据集通过整合两个单模态资源构建而成：1) MIMIC-CXR-VQA数据集，一个专门设计用于增强EHR问答中图像模态的新型医学视觉问答（VQA）基准；2) EHRSQL（MIMIC-IV），一个重新设计的基于表格的EHR问答数据集。通过集成这两个单模态资源，成功构建了一个需要单模态和跨模态推理的多模态EHR问答数据集。

更新

2024年7月24日：在Physionet上发布了EHRXQA数据集。
2023年12月12日：在NeurIPS 2023数据集和基准测试轨道上展示了我们的研究工作。
2023年10月28日：在arXiv上发布了我们的研究论文。

特性

提供脚本下载源数据集（MIMIC-CXR-JPG、Chest ImaGenome和MIMIC-IV）。
提供脚本预处理源数据集。
提供脚本构建集成数据库（MIMIC-IV和MIMIC-CXR）。
提供脚本生成包含答案信息的EHRXQA数据集。

安装

对于Linux：

确保您的机器上安装了Python 3.8.5或更高版本。使用以下命令设置环境并安装所需包： bash

设置环境

conda create --name ehrxqa python=3.8.5

激活环境

conda activate ehrxqa

安装所需包

pip install pandas==1.1.3 tqdm==4.65.0 scikit-learn==0.23.2 pip install dask==2022.12.1

设置

克隆此仓库并导航到其中： bash git clone https://github.com/baeseongsu/ehrxqa.git cd ehrxqa

使用

隐私

我们非常重视数据隐私。通过此仓库访问的所有数据都经过精心准备，以防止任何隐私泄露或数据泄露。您可以放心使用这些数据，因为所有必要的预防措施都已采取。

访问要求

EHRXQA数据集是从MIMIC-CXR-JPG（v2.0.0）、Chest ImaGenome（v1.0.0）和MIMIC-IV（v2.2）构建的。所有这些源数据集都需要经过认证的Physionet许可证。由于这些要求，只有经过认证的用户才能访问MIMIC-CXR-VQA数据集文件。要访问源数据集，您必须满足以下所有要求：

成为经过认证的用户
- 如果您没有PhysioNet账户，请在此注册：https://physionet.org/register/
- 按照这些说明进行PhysioNet认证：https://physionet.org/credential-application/
- 完成“CITI数据或标本仅用于研究”培训课程：https://physionet.org/about/citi-course/
签署每个项目的数据使用协议（DUA）
- https://physionet.org/sign-dua/mimic-cxr-jpg/2.0.0/
- https://physionet.org/sign-dua/chest-imagenome/1.0.0/
- https://physionet.org/sign-dua/mimiciv/2.2/

访问EHRXQA数据集

在Physionet平台上准备发布完整的EHRXQA数据集的同时，我们为经过认证的用户通过此仓库提供部分数据集访问。要访问EHRXQA数据集，您可以运行此仓库中提供的main脚本（需要您的Physionet凭据）： bash bash build_dataset.sh

在脚本执行期间，输入您的PhysioNet凭据：

用户名：输入您的PhysioNet用户名并按Enter。
密码：输入您的PhysioNet密码并按Enter。密码字符不会显示在屏幕上。

该脚本执行以下操作：1) 从Physionet下载源数据集，2) 预处理这些数据集，3) 通过创建真实答案信息生成完整的EHRXQA数据集。

数据集结构

数据集结构如下：

ehrxqa └── dataset ├── train.json ├── _valid.json ├── _test.json ├── train.json (脚本执行后可用) ├── valid.json (脚本执行后可用) └── test.json (脚本执行后可用)

ehrxqa是根目录。其中，dataset目录包含EHRXQA数据集的各种JSON文件。
_train.json、_valid.json和_test.json是数据集文件的预发布版本，分别对应训练、验证和测试集。这些版本故意不完整，以保护隐私并防止敏感信息泄露；它们不包含某些关键信息，如答案。
使用有效的Physionet凭据执行主脚本后，将生成这些文件的完整版本 - train.json、valid.json和test.json。这些文件包含完整信息，包括每个条目对应的答案。

数据集描述

EHRXQA数据集中的问答样本存储在单独的.json文件中。每个文件包含一个Python字典列表，每个键表示：

db_id：表示相应数据库ID的字符串。
split：数据集分割类别（例如，训练、测试、验证）。
id：数据集中每个实例的唯一标识符。
question：问题的改写版本。
template：通过将真实数据库值注入标签创建的最终问题模板。这代表了问题完全指定和上下文化的形式。
query：问题的相应NeuralSQL/SQL查询。
value：与问题相关的特定键值对，从数据库中采样。
q_tag：初始采样的问题模板。这作为问题的基础结构。
t_tag：采样的时间模板，用于为问题提供时间上下文和具体性。
o_tag：查询的采样操作值，通常包含形成问题所需的数值或计算方面。
v_tag：采样的视觉值，包括对象、类别、属性和比较等元素，为问题添加更多细节。
tag：综合标签，将增强的q_tag与额外元素（t_tag、o_tag、v_tag）合成。这代表了在形成最终模板之前的中间、更具体化的问题模板。
para_type：改写的来源，来自通用机器生成工具或GPT-4。
is_impossible：布尔值，表示问题是否可根据数据集回答。
_gold_program：用于生成答案的临时程序。

验证PhysioNet凭据后，create_answer.py脚本生成以下内容：

answer：基于查询执行的答案字符串。

具体示例： json { "db_id": "mimic_iv_cxr", "split": "train", "id": 0, "question": "how many days have passed since the last chest x-ray of patient 18679317 depicting any anatomical findings in 2105?", "template": "how many days have passed since the last time patient 18679317 had a chest x-ray study indicating any anatomicalfinding in 2105?", "query": "select 1 * ( strftime(%J,current_time) - strftime(%J,t1.studydatetime) ) from ( select tb_cxr.study_id, tb_cxr.studydatetime from tb_cxr where tb_cxr.study_id in ( select distinct tb_cxr.study_id from tb_cxr where tb_cxr.subject_id = 18679317 and strftime(%Y,tb_cxr.studydatetime) = 2105 ) ) as t1 where func_vqa("is the chest x-ray depicting any anatomical findings?", t1.study_id) = true", "value": {"patient_id": 18679317}, "q_tag": "how many [unit_count] have passed since the [time_filter_exact1] time patient {patient_id} had a chest x-ray study indicating any ${category} [time_filter_global1]?", "t_tag": ["abs-year-in", "", "", "exact-last", ""], "o_tag": {"unit_count": {"nlq": "days", "sql": "1 * ", "type": "days", "sql_pattern": "[unit_count]"}}, "v_tag": {"object": [], "category": ["anatomicalfinding"], "attribute": []}, "tag": "how many [unit_count:days] have passed since the [time_filter_exact1:exact-last] time patient {patient_id} had a chest x-ray study indicating any anatomicalfinding [time_filter_global1:abs-year-in]?", "para_type": "machine", "is_impossible": False, "answer": "Will be generated by dataset_builder/generate_answer.py" }

版本控制

我们采用语义版本控制，当前版本为v1.0.0。通常，我们只维护和提供最新版本的数据集更新。然而，在发生重大更新或需要验证先前研究时，我们可能会例外地保留旧版本数据集，最长可达一年。有关每个版本中更改的详细列表，请查看我们的CHANGELOG。

贡献

欢迎对提高此数据集的可用性和功能性做出贡献。如果您有兴趣贡献，请随意fork此仓库，进行更改，然后提交拉取请求。对于重大更改，请先打开一个问题以讨论拟议的更改。

联系

如有关于此数据集的任何问题或疑虑，请随时联系我们（seongsu@kaist.ac.kr 或 kyungdaeun@kaist.ac.kr）。我们感谢您的兴趣，并乐于提供帮助。

引用

当您使用EHRXQA数据集时，我们希望您引用以下内容：

@article{bae2023ehrxqa, title={EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images}, author={Bae, Seongsu and Kyung, Daeun and Ryu, Jaehee and Cho, Eunbyeol and Lee, Gyubok and Kweon, Sunjun and Oh, Jungwoo and Ji, Lei and Chang, Eric I and Kim, Tackeun and others}, journal={arXiv preprint arXiv:2310.18652}, year={2023} }

许可证

此仓库中的代码根据MIT许可证提供。使用此代码创建的最终数据集输出EHRXQA，受Physionet原始数据集的条款和条件约束：MIMIC-CXR-JPG许可证、Chest ImaGenome许可证和MIMIC-IV许可证。

AI搜集汇总

数据集介绍

构建方式

EHRXQA数据集的构建融合了结构化电子健康记录(EHR)和胸部X光图像，旨在促进多模态问答系统的研发。该数据集的构建主要分为两个步骤：首先，创建了两个单模态资源：MIMICCXR-VQA数据集，一个专门为增强EHR QA中成像模态而设计的医疗视觉问答(VQA)基准数据集；EHRSQL (MIMIC-IV)，一个经过改造的基于表格的EHR QA数据集。然后，通过整合这两个单模态资源，成功地构建了一个多模态EHR QA数据集，该数据集需要单模态和跨模态推理。

特点

EHRXQA数据集的特点在于它是一个多模态的问答数据集，包含了结构化的EHR和胸部X光图像。它涵盖了三种类型的QA范围：图像相关、表格相关和图像+表格相关。数据集中的问题模板经过精心设计，以确保临床相关性，并考虑了时间表达在现实世界问题中的关键作用。此外，EHRXQA数据集还采用了NeuralSQL策略，结合了大型语言模型(LLM)和外部VQA API，以有效地处理结构化数据库中的图像。

使用方法

使用EHRXQA数据集的方法包括以下步骤：首先，选择一个问题模板，然后进行四步系统过程来指定模板的语义，包括视觉值、操作值、时间模板和条件值。对于表格相关的问题模板，使用SQL注释；对于图像相关或图像+表格相关的问题模板，使用NeuralSQL表示进行注释。在数据生成过程中，如果样本的SQL/NeuralSQL查询能够得到有效答案，则将(Question, SQL/NeuralSQL)对添加到数据集中。为了提高语言多样性，使用GPT-4对每个问题模板进行改写。

背景与挑战

背景概述

电子健康记录（EHRs）是一种包含患者医疗历史的多模态数据库，包括结构化医疗记录、医学图像和临床文本。EHRXQA是一个结合了结构化EHRs和胸部X光图像的多模态问答数据集，旨在促进多模态EHR问答系统的研究。该数据集由韩国科学技术院（KAIST）的研究人员创建，并在NeurIPS 2023会议上发表。EHRXQA数据集的创建填补了现有EHR问答系统在处理多模态信息方面的空白，并有望推动临床决策和研究的发展。

当前挑战

EHRXQA数据集面临的挑战主要包括：1) 从数据库中检索和分析单个图像，仅基于自然语言表达；2) 处理多个图像，包括跨多个研究的比较查询；3) 在表格和图像之间进行多模态数据推理。为了克服这些挑战，研究人员提出了基于NeuralSQL的方法，该方法集成了大型语言模型（LLM）解析器和外部VQA API模块，有效地处理了结构化信息和图像。然而，该模型在执行阶段（AccEX|pred）的性能受到需要处理的图像数量的影响，尤其是在处理多个图像或大量图像结果的情况下，性能会显著下降。这表明视觉感知可能是人工智能模型在临床实践中部署的主要障碍，未来研究应更多地关注感知能力。

常用场景

经典使用场景

EHRXQA数据集最经典的使用场景是在医疗领域中，用于构建能够处理结构化电子健康记录（EHR）和胸部X光图像的多模态问答系统。该数据集提供了丰富的多模态数据，包括结构化的医疗记录和胸部X光图像，为研究者提供了一个平台来开发能够联合推理图像和表格模态的问答系统。这有助于医疗专业人员更好地理解患者的状况，从而提高临床决策的质量。

实际应用

EHRXQA数据集在实际应用场景中具有广泛的应用前景。例如，它可以用于开发智能医疗助手，帮助医生快速准确地从EHRs中提取关键信息，提高诊断的准确性和效率。此外，该数据集还可以用于开发临床决策支持系统，帮助医生做出更明智的治疗决策。此外，EHRXQA数据集还可以用于开发医疗研究平台，帮助研究人员更好地理解疾病的成因和治疗方法。

衍生相关工作

EHRXQA数据集的引入，推动了多模态问答系统的研究。在此基础上，研究者们开发了多种基于NeuralSQL的方法，这些方法能够有效地处理多模态数据，提高问答系统的性能。此外，EHRXQA数据集还为医学视觉问答（VQA）领域的研究提供了新的研究方向，例如如何更好地利用医学知识图谱来提高VQA系统的性能。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

WEATHER-5K

WEATHER-5K是由香港科技大学上海人工智能实验室创建的大规模全球气象站数据集，包含来自5672个全球气象站的10年每小时气象数据。该数据集覆盖多种关键气象要素，旨在为全球站点气象预报（GSWF）提供一个可靠和可解释的资源，并作为评估现有预测模型的基准。WEATHER-5K不仅支持GSWF方法，还扩展到未来时间序列研究挑战和机会，通过广泛的时序预测基准测试，推动该领域的显著进步。

arXiv 收录

CHARLS

中国健康与养老追踪调查（CHARLS）数据集，旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析人口老龄化问题，内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录