ECG-QA
收藏ECG-QA 数据集概述
数据集简介
ECG-QA 是一个结合心电图(ECG)的综合问答数据集,旨在填补现有医疗问答数据集主要关注医学影像、临床笔记或结构化电子健康记录表格的空白。该数据集包含70个问题模板,覆盖广泛的临床相关ECG主题,每个模板均由ECG专家验证以确保其临床实用性。
数据集版本更新
- 1.0.2 (2024-04-11)
- 修正了PTB-XL ECG-QA样本中的错误,将
"late stage of myocardial infarction"替换为"old stage of myocardial infarction"。 - 扩展了基于MIMIC-IV-ECG的ECG-QA数据集,采样了更多ECG样本。
- 修正了MIMIC-IV-ECG版本中的采样错误,排除了包含
nan值的ECG样本,并修正了一些属性中的拼写错误。
- 修正了PTB-XL ECG-QA样本中的错误,将
- 1.0.1
- 将
"late stage of myocardial infarction"重命名为"old stage of myocardial infarction"。
- 将
- 1.0.0
- 初始版本发布。
数据集结构
数据集分为两个主要部分:基于PTB-XL的原始版本和基于MIMIC-IV-ECG的扩展版本。
文件结构
ecgqa ├── ptbxl │ ├── answers_for_each_template.csv │ ├── answers.csv │ ├── test_ecgs.tsv │ ├── train_ecgs.tsv │ ├── valid_ecgs.tsv │ ├── paraphrased │ │ ├─ test │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 80000.json │ │ ├─ train │ │ │ ├─ 00000.json │ │ │ │ ... │ │ │ └─ 260000.json │ │ └─ valid │ │ ├─ 00000.json │ │ │ ... │ │ └─ 60000.json │ └── template │ ├─ test │ │ ├─ 00000.json │ │ │ ... │ │ └─ 80000.json │ ├─ train │ │ ├─ 00000.json │ │ │ ... │ │ └─ 260000.json │ └─ valid │ ├─ 00000.json │ │ ... │ └─ 60000.json └── mimic-iv-ecg ├── ... └── (类似上述结构)
数据格式
每个JSON文件包含一个Python字典列表,每个字典包含以下键:
template_id: 模板ID。question_id: 问题ID。sample_id: 样本ID。question_type: 问题类型。attribute_type: 属性类型。question: 问题字符串。answer: 答案字符串列表。ecg_id: ECG ID列表。attribute: 相关属性列表。
附加文件
answers_for_each_template.csv: 每个模板ID的可能答案选项。answers.csv: 所有问答样本的答案选项。*_ecgs.tsv: 包含每个分割中源ECG数据集的ECG ID。
数据集使用
数据集不提供原始ECG值,而是提供对应的ECG ID。用户需要通过ECG ID映射到实际的ECG样本。提供了示例Python代码和Shell脚本以帮助用户进行数据处理和实验。
数据处理示例
python import glob import json
data = [] for fname in sorted(glob.glob("ecgqa/ptbxl/paraphrased/train/*.json")): with open(fname, "r") as f: data.extend(json.load(f))
print(len(data)) print(data[0])
数据映射脚本
-
对于PTB-XL版本: shell script $ python mapping_ptbxl_samples.py ecgqa/ptbxl --ptbxl-data-dir $ptbxl_dir --dest $dest_dir
-
对于MIMIC-IV-ECG版本: shell script $ python mapping_mimic_iv_ecg_samples.py ecgqa/mimic-iv-ecg --mimic-iv-ecg-data-dir $mimic_iv_ecg_dir --dest $dest_dir
实验代码
实验代码实现于fairseq-signals仓库中。提供了详细的实验指南和配置文件。
快速开始
- 安装fairseq-signals。
- 映射ECG ID到对应的ECG文件路径。
- 预处理ECG-QA数据集。
- 运行实验。
上界实验
- 安装fairseq-signals。
- 预处理ECG-QA数据集以兼容上界实验。
- 运行上界实验。
LLM建模实验
- 安装fairseq-signals。
- 映射ECG ID到对应的ECG文件路径。
- 预处理ECG-QA数据集。
- 从测试集中随机采样10%。
- 运行LLM建模实验。

- 1ECG-QA: A Comprehensive Question Answering Dataset Combined With Electrocardiogram · 2023年



