five

ECG-QA|心电图分析数据集|临床应用数据集

收藏
arXiv2023-10-11 更新2024-07-30 收录
心电图分析
临床应用
下载链接:
https://github.com/Jwoo5/ecg-qa
下载链接
链接失效反馈
资源简介:
一个专为心电图分析设计的问答数据集,包含70个覆盖广泛临床相关心电图主题的问题模板,每个问题都经过心电图专家验证以确保其临床实用性。
创建时间:
2023-06-21
原始信息汇总

ECG-QA 数据集概述

数据集简介

ECG-QA 是一个结合心电图(ECG)的综合问答数据集,旨在填补现有医疗问答数据集主要关注医学影像、临床笔记或结构化电子健康记录表格的空白。该数据集包含70个问题模板,覆盖广泛的临床相关ECG主题,每个模板均由ECG专家验证以确保其临床实用性。

数据集版本更新

  • 1.0.2 (2024-04-11)
    • 修正了PTB-XL ECG-QA样本中的错误,将"late stage of myocardial infarction"替换为"old stage of myocardial infarction"
    • 扩展了基于MIMIC-IV-ECG的ECG-QA数据集,采样了更多ECG样本。
    • 修正了MIMIC-IV-ECG版本中的采样错误,排除了包含nan值的ECG样本,并修正了一些属性中的拼写错误。
  • 1.0.1
    • "late stage of myocardial infarction"重命名为"old stage of myocardial infarction"
  • 1.0.0
    • 初始版本发布。

数据集结构

数据集分为两个主要部分:基于PTB-XL的原始版本和基于MIMIC-IV-ECG的扩展版本。

文件结构

ecgqa ├── ptbxl │ ├── answers_for_each_template.csv │ ├── answers.csv │ ├── test_ecgs.tsv │ ├── train_ecgs.tsv │ ├── valid_ecgs.tsv │ ├── paraphrased │ │ ├─ test │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 80000.json │ │ ├─ train │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 260000.json │ │ └─ valid │ │ ├─ 00000.json │ │ │ ... │ │ └─ 60000.json │ └── template │ ├─ test │ │ ├─ 00000.json │ │ │ ... │ │ └─ 80000.json │ ├─ train │ │ ├─ 00000.json │ │ │ ... │ │ └─ 260000.json │ └─ valid │ ├─ 00000.json │ │ ... │ └─ 60000.json └── mimic-iv-ecg ├── ... └── (类似上述结构)

数据格式

每个JSON文件包含一个Python字典列表,每个字典包含以下键:

  • template_id: 模板ID。
  • question_id: 问题ID。
  • sample_id: 样本ID。
  • question_type: 问题类型。
  • attribute_type: 属性类型。
  • question: 问题字符串。
  • answer: 答案字符串列表。
  • ecg_id: ECG ID列表。
  • attribute: 相关属性列表。

附加文件

  • answers_for_each_template.csv: 每个模板ID的可能答案选项。
  • answers.csv: 所有问答样本的答案选项。
  • *_ecgs.tsv: 包含每个分割中源ECG数据集的ECG ID。

数据集使用

数据集不提供原始ECG值,而是提供对应的ECG ID。用户需要通过ECG ID映射到实际的ECG样本。提供了示例Python代码和Shell脚本以帮助用户进行数据处理和实验。

数据处理示例

python import glob import json

data = [] for fname in sorted(glob.glob("ecgqa/ptbxl/paraphrased/train/*.json")): with open(fname, "r") as f: data.extend(json.load(f))

print(len(data)) print(data[0])

数据映射脚本

  • 对于PTB-XL版本: shell script $ python mapping_ptbxl_samples.py ecgqa/ptbxl --ptbxl-data-dir $ptbxl_dir --dest $dest_dir

  • 对于MIMIC-IV-ECG版本: shell script $ python mapping_mimic_iv_ecg_samples.py ecgqa/mimic-iv-ecg --mimic-iv-ecg-data-dir $mimic_iv_ecg_dir --dest $dest_dir

实验代码

实验代码实现于fairseq-signals仓库中。提供了详细的实验指南和配置文件。

快速开始

  1. 安装fairseq-signals。
  2. 映射ECG ID到对应的ECG文件路径。
  3. 预处理ECG-QA数据集。
  4. 运行实验。

上界实验

  1. 安装fairseq-signals。
  2. 预处理ECG-QA数据集以兼容上界实验。
  3. 运行上界实验。

LLM建模实验

  1. 安装fairseq-signals。
  2. 映射ECG ID到对应的ECG文件路径。
  3. 预处理ECG-QA数据集。
  4. 从测试集中随机采样10%。
  5. 运行LLM建模实验。
AI搜集汇总
数据集介绍
main_image_url
构建方式
ECG-QA 数据集的构建主要基于 PTB-XL 数据集,该数据集提供了由专家注释的 ECGs 的全面元数据。首先,从 PTB-XL 数据集中提取了与临床相关的属性,并设计了 70 个问题模板,这些模板涵盖了广泛的心电图主题。然后,将这些属性插入模板中,并收集了相应的答案和心电图,以创建 (问题,答案) 对。最后,将数据集分为训练、验证和测试集,以确保训练集和测试集之间没有心电图重叠。
特点
ECG-QA 数据集的特点在于它结合了心电图数据和问答系统,填补了现有医疗保健问答数据集的空白。数据集包含 70 个问题模板,覆盖了广泛的心电图主题,并包括需要比较两个不同心电图的问题。此外,数据集还包含了多种类型的问题,包括验证、选择和查询,以适应不同的问答需求。
使用方法
使用 ECG-QA 数据集的方法包括以下几个步骤:首先,选择合适的问题类型和属性类型。然后,根据问题模板生成问题,并将相应的属性插入模板中。接下来,从数据集中随机采样相应的 ECGs,并将问题与答案和心电图配对。最后,使用生成的 (问题,答案) 对进行问答模型的训练和评估。
背景与挑战
背景概述
心电图(ECG)分析在心脏病学中占据着至关重要的位置,它揭示了心脏的电活动,为诊断各种心脏状况提供了关键信息。然而,现有的医疗问答(QA)数据集主要集中在医疗图像、临床笔记或结构化的电子健康记录(EHR)表格上,而将心电图数据与问答系统相结合的潜力尚未得到充分挖掘。为了填补这一空白,Oh等人提出了ECG-QA数据集,这是一个专门为心电图分析设计的问答数据集。该数据集包含70个问题模板,涵盖了广泛的临床相关心电图主题,并由心电图专家验证以确保其临床实用性。ECG-QA数据集的创建旨在推动智能问答系统的发展,这些系统能够辅助临床医生进行心电图解读,从而提高诊断准确性和个性化治疗计划。该数据集的主要贡献包括:提出了ECG-QA数据集,这是一个专注于心电图解读和分析的问题集合;包括需要比较两个心电图的问题,以覆盖更复杂且临床关键的诊断需求;为QA模型提供基准,包括最新的大型语言模型(LLM),以促进进一步的研究并鼓励开发利用心电图信号进行问答任务的新方法。ECG-QA数据集有望显著推动心电图问答研究领域的发展,并改善心电图数据分析的临床实践。
当前挑战
ECG-QA数据集在发展过程中面临了若干挑战。首先,心电图数据的多模态特性要求问答系统不仅要理解自然语言,还要能够分析心电图信号。其次,构建过程中需要确保问题的临床相关性和实用性,这需要心电图专家的参与和验证。此外,数据集的构建也面临了数据量有限的挑战,因为心电图数据通常不易获取,并且需要严格的标注。最后,心电图信号的解读往往涉及复杂的逻辑和推理,这对问答系统的设计提出了更高的要求。尽管存在这些挑战,ECG-QA数据集的发布为开发智能问答系统提供了一个宝贵的资源,这些系统有望在未来改善心脏病学的临床实践。
常用场景
经典使用场景
在医疗保健领域,自然语言处理技术的进步推动了问答系统的发展,然而,现有的医疗保健问答数据集主要关注医学图像、临床笔记或结构化的电子健康记录表。为了填补这一空白,ECG-QA 数据集应运而生,它是第一个专门为心电图分析设计的问答数据集。该数据集包含 70 个问题模板,涵盖了广泛的临床相关心电图主题,并由心电图专家验证以确保其临床实用性。此外,数据集还包括需要比较两个不同心电图的问题。ECG-QA 数据集可用于开发智能问答系统,这些系统能够帮助临床医生进行心电图解读。
衍生相关工作
ECG-QA 数据集衍生了与心电图问答相关的研究工作,包括开发多模态大型语言模型(LLMs)来同时处理心电图信号和自然语言。此外,该数据集还促进了利用心电图信号进行问答任务的新方法的研究。ECG-QA 数据集为探索将心电图信号与自然语言处理相结合的新方法提供了宝贵的资源。
数据集最近研究
最新研究方向
在心脏电生理学领域,ECG-QA 数据集的提出为心电图分析中的问答系统研究开辟了新的途径。该数据集涵盖了广泛的临床相关心电图主题,并通过心电图专家的验证确保了其临床实用性。最新的研究方向主要集中在开发智能问答系统,这些系统能够辅助临床医生进行心电图解释。此外,该数据集还包含了需要比较两个不同心电图的问题,这为心电图分析带来了新的复杂性。未来的研究可能包括探索多模态语言模型,这些模型能够同时处理心电图信号和自然语言,从而进一步提高心电图分析的准确性和个性化治疗计划的发展。
相关研究论文
  • 1
    ECG-QA: A Comprehensive Question Answering Dataset Combined With Electrocardiogram · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录