ECGInstruct

Hugging Face2024-10-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/PULSE-ECG/ECGInstruct

下载链接

链接失效反馈

官方服务：

资源简介：

ECGInstruct是一个综合且大规模的指令调优数据集，专门用于心电图（ECG）图像解读。该数据集中的ECG图像由原始信号记录生成，并包含一系列模拟真实世界打印ECG图像的失真。ECGInstruct精心策划，源自临床医生定义的ECG任务、原始诊断、临床报告和多种任务类型。为确保高质量，额外检查被应用于过滤掉评分较低的指令。

ECGInstruct is a comprehensive, large-scale instruction-tuning dataset specifically designed for electrocardiogram (ECG) image interpretation. The ECG images in this dataset are generated from raw signal recordings and incorporate a series of distortions that simulate real-world printed ECG images. ECGInstruct is carefully curated, derived from clinician-defined ECG tasks, original diagnoses, clinical reports, and diverse task types. To ensure high quality, additional checks are applied to filter out low-quality instructions.

创建时间：

2024-10-22

原始信息汇总

ECGInstruct 数据集概述

基本信息

数据集名称: ECGInstruct
许可证: Apache 2.0
配置:
- 配置名称: ECGInstruct
- 数据文件:
  - 分割: train
  - 路径: ECGInstruct.json

简介

ECGInstruct 是一个综合且大规模的指令调优数据集，专为心电图（ECG）图像解释设计。数据集中的 ECG 图像由原始信号记录生成，并包含模拟真实世界打印 ECG 图像的多种失真。数据集精心策划，源自临床医生定义的 ECG 任务、原始诊断、临床报告以及多种任务类型。为确保高质量，额外检查用于过滤低评分指令。

数据集统计

数据集统计信息未提供具体数值，但包含一张统计图表。

数据集示例

数据集包含多个 ECG 图像示例，展示了不同类型的 ECG 图像及其特征。

引用

如需引用该数据集，请参考以下论文：

@article{liu2024teach, title={Teach Multimodal LLMs to Comprehend Electrocardiographic Images}, author={Ruoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang}, journal={arXiv preprint arXiv:2410.19008}, year={2024} }

搜集汇总

数据集介绍

构建方式

ECGInstruct数据集的构建过程基于心电图（ECG）图像的生成与处理。首先，从原始信号记录中生成ECG图像，并通过引入多种失真效果模拟现实世界中的打印ECG图像。其次，数据集结合了临床医生定义的ECG任务、原始诊断、临床报告以及多样化的任务类型，确保数据的多样性和实用性。最后，通过额外的质量检查，筛选出低质量指令，确保数据集的高标准。

特点

ECGInstruct数据集的特点在于其规模庞大且内容全面，专为ECG图像解释的指令调优设计。数据集不仅包含丰富的ECG图像，还涵盖了多种失真效果，模拟真实场景。此外，数据集的指令任务基于临床医生的实际需求，确保了其在实际应用中的有效性。通过严格的质量控制，数据集提供了高质量的指令，适用于多模态大语言模型的训练与评估。

使用方法

ECGInstruct数据集的使用方法主要围绕多模态大语言模型的训练与评估展开。用户可以通过加载数据集中的ECG图像和对应指令，进行模型的指令调优任务。数据集提供了丰富的任务类型，包括基本特征识别、形态学分析以及病理条件识别等，适用于多种ECG图像解释场景。通过结合代码库和预训练模型，用户可以快速构建和评估多模态模型，提升其在ECG图像理解任务中的表现。

背景与挑战

背景概述

ECGInstruct数据集由AIMedLab团队于2024年发布，旨在通过大规模指令调优数据集提升多模态大语言模型对心电图（ECG）图像的理解能力。该数据集基于论文《Teach Multimodal LLMs to Comprehend Electrocardiographic Images》的研究成果，涵盖了从原始信号记录生成的ECG图像，并模拟了真实世界中的打印图像失真。数据集的构建结合了临床医生定义的ECG任务、原始诊断、临床报告以及多种任务类型，确保了数据的多样性和高质量。ECGInstruct的发布为心电图图像的自动解读提供了重要的数据支持，推动了多模态大语言模型在医疗领域的应用。

当前挑战

ECGInstruct数据集在构建和应用过程中面临多重挑战。首先，心电图图像的解读需要高度的专业性和准确性，如何确保生成的数据能够真实反映临床场景中的复杂情况是一个关键问题。其次，数据集中包含的失真模拟需要精确控制，以避免对模型训练产生负面影响。此外，多模态大语言模型在处理图像和文本结合的任务时，如何有效融合不同模态的信息并提升模型的泛化能力，也是一个亟待解决的技术难题。最后，数据集的规模和质量之间的平衡，以及在临床实践中的验证和推广，都是未来研究需要重点关注的方向。

常用场景

经典使用场景

ECGInstruct数据集在医学图像处理领域具有重要应用，特别是在心电图（ECG）图像的解释与分析中。该数据集通过生成模拟真实世界打印ECG图像的失真数据，为研究人员提供了一个大规模、高质量的指令调优平台。经典的使用场景包括训练多模态大语言模型（LLMs）以理解和解释ECG图像，从而辅助临床医生进行诊断决策。

解决学术问题

ECGInstruct数据集解决了医学图像处理中的多个关键学术问题。首先，它通过引入多样化的失真模拟，提升了模型在复杂环境下的鲁棒性。其次，数据集结合了临床医生的诊断任务和原始报告，确保了数据的临床相关性。此外，通过严格的筛选机制，数据集剔除了低质量指令，进一步提高了模型的训练效果。这些特性使得ECGInstruct成为推动ECG图像理解研究的重要工具。

衍生相关工作

ECGInstruct数据集的发布催生了一系列相关研究工作。基于该数据集，研究人员开发了PULSE-7B模型，该模型在ECG图像理解任务中表现出色。此外，ECGBench基准测试的推出，进一步推动了ECG图像分析领域的标准化和评估体系的完善。这些衍生工作不仅扩展了ECGInstruct的应用范围，也为后续研究提供了宝贵的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集