ECG-QA|心电图分析数据集|临床应用数据集
收藏ECG-QA 数据集概述
数据集简介
ECG-QA 是一个结合心电图(ECG)的综合问答数据集,旨在填补现有医疗问答数据集主要关注医学影像、临床笔记或结构化电子健康记录表格的空白。该数据集包含70个问题模板,覆盖广泛的临床相关ECG主题,每个模板均由ECG专家验证以确保其临床实用性。
数据集版本更新
- 1.0.2 (2024-04-11)
- 修正了PTB-XL ECG-QA样本中的错误,将
"late stage of myocardial infarction"
替换为"old stage of myocardial infarction"
。 - 扩展了基于MIMIC-IV-ECG的ECG-QA数据集,采样了更多ECG样本。
- 修正了MIMIC-IV-ECG版本中的采样错误,排除了包含
nan
值的ECG样本,并修正了一些属性中的拼写错误。
- 修正了PTB-XL ECG-QA样本中的错误,将
- 1.0.1
- 将
"late stage of myocardial infarction"
重命名为"old stage of myocardial infarction"
。
- 将
- 1.0.0
- 初始版本发布。
数据集结构
数据集分为两个主要部分:基于PTB-XL的原始版本和基于MIMIC-IV-ECG的扩展版本。
文件结构
ecgqa ├── ptbxl │ ├── answers_for_each_template.csv │ ├── answers.csv │ ├── test_ecgs.tsv │ ├── train_ecgs.tsv │ ├── valid_ecgs.tsv │ ├── paraphrased │ │ ├─ test │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 80000.json │ │ ├─ train │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 260000.json │ │ └─ valid │ │ ├─ 00000.json │ │ │ ... │ │ └─ 60000.json │ └── template │ ├─ test │ │ ├─ 00000.json │ │ │ ... │ │ └─ 80000.json │ ├─ train │ │ ├─ 00000.json │ │ │ ... │ │ └─ 260000.json │ └─ valid │ ├─ 00000.json │ │ ... │ └─ 60000.json └── mimic-iv-ecg ├── ... └── (类似上述结构)
数据格式
每个JSON文件包含一个Python字典列表,每个字典包含以下键:
template_id
: 模板ID。question_id
: 问题ID。sample_id
: 样本ID。question_type
: 问题类型。attribute_type
: 属性类型。question
: 问题字符串。answer
: 答案字符串列表。ecg_id
: ECG ID列表。attribute
: 相关属性列表。
附加文件
answers_for_each_template.csv
: 每个模板ID的可能答案选项。answers.csv
: 所有问答样本的答案选项。*_ecgs.tsv
: 包含每个分割中源ECG数据集的ECG ID。
数据集使用
数据集不提供原始ECG值,而是提供对应的ECG ID。用户需要通过ECG ID映射到实际的ECG样本。提供了示例Python代码和Shell脚本以帮助用户进行数据处理和实验。
数据处理示例
python import glob import json
data = [] for fname in sorted(glob.glob("ecgqa/ptbxl/paraphrased/train/*.json")): with open(fname, "r") as f: data.extend(json.load(f))
print(len(data)) print(data[0])
数据映射脚本
-
对于PTB-XL版本: shell script $ python mapping_ptbxl_samples.py ecgqa/ptbxl --ptbxl-data-dir $ptbxl_dir --dest $dest_dir
-
对于MIMIC-IV-ECG版本: shell script $ python mapping_mimic_iv_ecg_samples.py ecgqa/mimic-iv-ecg --mimic-iv-ecg-data-dir $mimic_iv_ecg_dir --dest $dest_dir
实验代码
实验代码实现于fairseq-signals仓库中。提供了详细的实验指南和配置文件。
快速开始
- 安装fairseq-signals。
- 映射ECG ID到对应的ECG文件路径。
- 预处理ECG-QA数据集。
- 运行实验。
上界实验
- 安装fairseq-signals。
- 预处理ECG-QA数据集以兼容上界实验。
- 运行上界实验。
LLM建模实验
- 安装fairseq-signals。
- 映射ECG ID到对应的ECG文件路径。
- 预处理ECG-QA数据集。
- 从测试集中随机采样10%。
- 运行LLM建模实验。

- 1ECG-QA: A Comprehensive Question Answering Dataset Combined With Electrocardiogram · 2023年
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Sleep
该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录
HUSTgearbox
This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research
github 收录