five

ECG-QA

收藏
arXiv2023-10-11 更新2024-07-30 收录
下载链接:
https://github.com/Jwoo5/ecg-qa
下载链接
链接失效反馈
官方服务:
资源简介:
一个专为心电图分析设计的问答数据集,包含70个覆盖广泛临床相关心电图主题的问题模板,每个问题都经过心电图专家验证以确保其临床实用性。

A question-answering dataset purpose-built for electrocardiogram (ECG) analysis, containing 70 question templates covering a broad spectrum of clinically relevant ECG topics. Each question has been validated by ECG experts to ensure its clinical utility.
创建时间:
2023-06-21
原始信息汇总

ECG-QA 数据集概述

数据集简介

ECG-QA 是一个结合心电图(ECG)的综合问答数据集,旨在填补现有医疗问答数据集主要关注医学影像、临床笔记或结构化电子健康记录表格的空白。该数据集包含70个问题模板,覆盖广泛的临床相关ECG主题,每个模板均由ECG专家验证以确保其临床实用性。

数据集版本更新

  • 1.0.2 (2024-04-11)
    • 修正了PTB-XL ECG-QA样本中的错误,将"late stage of myocardial infarction"替换为"old stage of myocardial infarction"
    • 扩展了基于MIMIC-IV-ECG的ECG-QA数据集,采样了更多ECG样本。
    • 修正了MIMIC-IV-ECG版本中的采样错误,排除了包含nan值的ECG样本,并修正了一些属性中的拼写错误。
  • 1.0.1
    • "late stage of myocardial infarction"重命名为"old stage of myocardial infarction"
  • 1.0.0
    • 初始版本发布。

数据集结构

数据集分为两个主要部分:基于PTB-XL的原始版本和基于MIMIC-IV-ECG的扩展版本。

文件结构

ecgqa ├── ptbxl │ ├── answers_for_each_template.csv │ ├── answers.csv │ ├── test_ecgs.tsv │ ├── train_ecgs.tsv │ ├── valid_ecgs.tsv │ ├── paraphrased │ │ ├─ test │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 80000.json │ │ ├─ train │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 260000.json │ │ └─ valid │ │ ├─ 00000.json │ │ │ ... │ │ └─ 60000.json │ └── template │ ├─ test │ │ ├─ 00000.json │ │ │ ... │ │ └─ 80000.json │ ├─ train │ │ ├─ 00000.json │ │ │ ... │ │ └─ 260000.json │ └─ valid │ ├─ 00000.json │ │ ... │ └─ 60000.json └── mimic-iv-ecg ├── ... └── (类似上述结构)

数据格式

每个JSON文件包含一个Python字典列表,每个字典包含以下键:

  • template_id: 模板ID。
  • question_id: 问题ID。
  • sample_id: 样本ID。
  • question_type: 问题类型。
  • attribute_type: 属性类型。
  • question: 问题字符串。
  • answer: 答案字符串列表。
  • ecg_id: ECG ID列表。
  • attribute: 相关属性列表。

附加文件

  • answers_for_each_template.csv: 每个模板ID的可能答案选项。
  • answers.csv: 所有问答样本的答案选项。
  • *_ecgs.tsv: 包含每个分割中源ECG数据集的ECG ID。

数据集使用

数据集不提供原始ECG值,而是提供对应的ECG ID。用户需要通过ECG ID映射到实际的ECG样本。提供了示例Python代码和Shell脚本以帮助用户进行数据处理和实验。

数据处理示例

python import glob import json

data = [] for fname in sorted(glob.glob("ecgqa/ptbxl/paraphrased/train/*.json")): with open(fname, "r") as f: data.extend(json.load(f))

print(len(data)) print(data[0])

数据映射脚本

  • 对于PTB-XL版本: shell script $ python mapping_ptbxl_samples.py ecgqa/ptbxl --ptbxl-data-dir $ptbxl_dir --dest $dest_dir

  • 对于MIMIC-IV-ECG版本: shell script $ python mapping_mimic_iv_ecg_samples.py ecgqa/mimic-iv-ecg --mimic-iv-ecg-data-dir $mimic_iv_ecg_dir --dest $dest_dir

实验代码

实验代码实现于fairseq-signals仓库中。提供了详细的实验指南和配置文件。

快速开始

  1. 安装fairseq-signals。
  2. 映射ECG ID到对应的ECG文件路径。
  3. 预处理ECG-QA数据集。
  4. 运行实验。

上界实验

  1. 安装fairseq-signals。
  2. 预处理ECG-QA数据集以兼容上界实验。
  3. 运行上界实验。

LLM建模实验

  1. 安装fairseq-signals。
  2. 映射ECG ID到对应的ECG文件路径。
  3. 预处理ECG-QA数据集。
  4. 从测试集中随机采样10%。
  5. 运行LLM建模实验。
搜集汇总
数据集介绍
main_image_url
构建方式
ECG-QA 数据集的构建主要基于 PTB-XL 数据集,该数据集提供了由专家注释的 ECGs 的全面元数据。首先,从 PTB-XL 数据集中提取了与临床相关的属性,并设计了 70 个问题模板,这些模板涵盖了广泛的心电图主题。然后,将这些属性插入模板中,并收集了相应的答案和心电图,以创建 (问题,答案) 对。最后,将数据集分为训练、验证和测试集,以确保训练集和测试集之间没有心电图重叠。
特点
ECG-QA 数据集的特点在于它结合了心电图数据和问答系统,填补了现有医疗保健问答数据集的空白。数据集包含 70 个问题模板,覆盖了广泛的心电图主题,并包括需要比较两个不同心电图的问题。此外,数据集还包含了多种类型的问题,包括验证、选择和查询,以适应不同的问答需求。
使用方法
使用 ECG-QA 数据集的方法包括以下几个步骤:首先,选择合适的问题类型和属性类型。然后,根据问题模板生成问题,并将相应的属性插入模板中。接下来,从数据集中随机采样相应的 ECGs,并将问题与答案和心电图配对。最后,使用生成的 (问题,答案) 对进行问答模型的训练和评估。
背景与挑战
背景概述
心电图(ECG)分析在心脏病学中占据着至关重要的位置,它揭示了心脏的电活动,为诊断各种心脏状况提供了关键信息。然而,现有的医疗问答(QA)数据集主要集中在医疗图像、临床笔记或结构化的电子健康记录(EHR)表格上,而将心电图数据与问答系统相结合的潜力尚未得到充分挖掘。为了填补这一空白,Oh等人提出了ECG-QA数据集,这是一个专门为心电图分析设计的问答数据集。该数据集包含70个问题模板,涵盖了广泛的临床相关心电图主题,并由心电图专家验证以确保其临床实用性。ECG-QA数据集的创建旨在推动智能问答系统的发展,这些系统能够辅助临床医生进行心电图解读,从而提高诊断准确性和个性化治疗计划。该数据集的主要贡献包括:提出了ECG-QA数据集,这是一个专注于心电图解读和分析的问题集合;包括需要比较两个心电图的问题,以覆盖更复杂且临床关键的诊断需求;为QA模型提供基准,包括最新的大型语言模型(LLM),以促进进一步的研究并鼓励开发利用心电图信号进行问答任务的新方法。ECG-QA数据集有望显著推动心电图问答研究领域的发展,并改善心电图数据分析的临床实践。
当前挑战
ECG-QA数据集在发展过程中面临了若干挑战。首先,心电图数据的多模态特性要求问答系统不仅要理解自然语言,还要能够分析心电图信号。其次,构建过程中需要确保问题的临床相关性和实用性,这需要心电图专家的参与和验证。此外,数据集的构建也面临了数据量有限的挑战,因为心电图数据通常不易获取,并且需要严格的标注。最后,心电图信号的解读往往涉及复杂的逻辑和推理,这对问答系统的设计提出了更高的要求。尽管存在这些挑战,ECG-QA数据集的发布为开发智能问答系统提供了一个宝贵的资源,这些系统有望在未来改善心脏病学的临床实践。
常用场景
经典使用场景
在医疗保健领域,自然语言处理技术的进步推动了问答系统的发展,然而,现有的医疗保健问答数据集主要关注医学图像、临床笔记或结构化的电子健康记录表。为了填补这一空白,ECG-QA 数据集应运而生,它是第一个专门为心电图分析设计的问答数据集。该数据集包含 70 个问题模板,涵盖了广泛的临床相关心电图主题,并由心电图专家验证以确保其临床实用性。此外,数据集还包括需要比较两个不同心电图的问题。ECG-QA 数据集可用于开发智能问答系统,这些系统能够帮助临床医生进行心电图解读。
衍生相关工作
ECG-QA 数据集衍生了与心电图问答相关的研究工作,包括开发多模态大型语言模型(LLMs)来同时处理心电图信号和自然语言。此外,该数据集还促进了利用心电图信号进行问答任务的新方法的研究。ECG-QA 数据集为探索将心电图信号与自然语言处理相结合的新方法提供了宝贵的资源。
数据集最近研究
最新研究方向
在心脏电生理学领域,ECG-QA 数据集的提出为心电图分析中的问答系统研究开辟了新的途径。该数据集涵盖了广泛的临床相关心电图主题,并通过心电图专家的验证确保了其临床实用性。最新的研究方向主要集中在开发智能问答系统,这些系统能够辅助临床医生进行心电图解释。此外,该数据集还包含了需要比较两个不同心电图的问题,这为心电图分析带来了新的复杂性。未来的研究可能包括探索多模态语言模型,这些模型能够同时处理心电图信号和自然语言,从而进一步提高心电图分析的准确性和个性化治疗计划的发展。
相关研究论文
  • 1
    ECG-QA: A Comprehensive Question Answering Dataset Combined With Electrocardiogram · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作