ECGBench
收藏Hugging Face2024-10-28 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/PULSE-ECG/ECGBench
下载链接
链接失效反馈官方服务:
资源简介:
ECGBench是一个综合基准数据集,旨在评估涉及真实世界和合成图像的ECG图像解释任务。该数据集的构建侧重于四个关键任务:(1)从现有ECG数据集中重新利用的两个任务——异常检测和报告生成,其中图像从原始信号合成,查询和答案从诊断和临床报告中提取;(2)利用外部资源新开发的两项任务,其中ECG图像以及相应的问题和答案从真实世界来源收集和生成。
ECGBench is a comprehensive benchmark dataset designed to evaluate ECG image interpretation tasks involving both real-world and synthetic images. The construction of this dataset focuses on four core tasks: (1) Two tasks repurposed from existing ECG datasets—anomaly detection and report generation, where images are synthesized from raw signals, and queries and answers are extracted from diagnostic and clinical reports; (2) Two newly developed tasks leveraging external resources, where ECG images along with their corresponding questions and answers are collected and generated from real-world sources.
创建时间:
2024-10-21
原始信息汇总
ECGBench 数据集概述
数据集配置
配置列表
- arena
- code15-test
- cpsc-test
- csn-test-no-cot
- ecgqa-test
- g12-test-no-cot
- mmmu-ecg
- ptb-test
- ptb-test-report
特征描述
每个配置包含以下特征:
- id: 数据项的唯一标识符,类型为字符串。
- image_path: 图像文件的路径,类型为字符串。
- image: 图像数据,类型为图像。
- conversations: 对话数据,包含以下子特征:
- from: 对话来源,类型为字符串。
- value: 对话内容,类型为字符串或列表。
数据分割
每个配置仅包含一个分割:
- test: 测试集。
数据量统计
| 配置名称 | 测试集样本数 | 下载大小 (bytes) | 数据集大小 (bytes) |
|---|---|---|---|
| arena | 50 | 19384923 | 19411667.0 |
| code15-test | 1400 | 2057551383 | 2065472392.8 |
| cpsc-test | 2061 | 2628267902 | 2657468263.191 |
| csn-test-no-cot | 1611 | 2029090397 | 2095684181.039 |
| ecgqa-test | 1317 | 1746962442 | 2043356106.658 |
| g12-test-no-cot | 2026 | 2502859378 | 2481876459.898 |
| mmmu-ecg | 200 | 152100232 | 167868095.0 |
| ptb-test | 2082 | 3083085031 | 3105815703.306 |
| ptb-test-report | 500 | 745567368 | 745593335.0 |
数据文件路径
每个配置的测试集数据文件路径如下:
- arena:
arena/test-* - code15-test:
code15-test/test-* - cpsc-test:
cpsc-test/test-* - csn-test-no-cot:
csn-test-no-cot/test-* - ecgqa-test:
ecgqa-test/test-* - g12-test-no-cot:
g12-test-no-cot/test-* - mmmu-ecg:
mmmu-ecg/test-* - ptb-test:
ptb-test/test-* - ptb-test-report:
ptb-test-report/test-*
搜集汇总
数据集介绍

构建方式
ECGBench数据集的构建基于多模态学习的需求,旨在评估心电图(ECG)图像的解释能力。该数据集通过整合现有ECG数据集中的异常检测和报告生成任务,结合从原始信号合成的图像,以及从诊断和临床报告中提取的查询和答案。此外,数据集还引入了基于外部资源的新任务,收集并生成了真实世界中的ECG图像及其对应的问题和答案。
特点
ECGBench数据集的特点在于其多样性和全面性,涵盖了从合成图像到真实世界图像的多模态数据。数据集包含多个配置,每个配置均包含图像、路径和对话信息,对话部分由问题和答案组成,形式灵活且内容丰富。数据集的规模较大,涵盖了数千个样本,适用于多种ECG图像解释任务的评估。
使用方法
ECGBench数据集的使用方法主要围绕多模态模型的训练和评估展开。用户可以通过HuggingFace平台下载数据集,并利用其提供的图像和对话信息进行模型训练。数据集的多个配置允许用户根据具体任务选择合适的数据子集。此外,数据集还提供了详细的统计信息和排行榜,帮助用户评估模型在不同任务上的表现。
背景与挑战
背景概述
ECGBench数据集由AIMedLab团队于2024年推出,旨在评估多模态大语言模型(LLMs)在心电图(ECG)图像解释方面的能力。该数据集的核心研究问题在于如何通过结合图像与文本信息,提升模型对ECG图像的理解与诊断能力。ECGBench的构建基于现有ECG数据集,通过合成图像和提取诊断报告中的问题与答案,涵盖了异常检测和报告生成等任务。此外,该数据集还引入了来自真实世界资源的ECG图像及相关问答,进一步扩展了其应用范围。ECGBench的发布为医疗人工智能领域提供了新的研究工具,推动了多模态模型在医疗图像分析中的应用。
当前挑战
ECGBench数据集在构建与应用过程中面临多重挑战。首先,ECG图像的多样性与复杂性使得模型在异常检测和报告生成任务中难以达到高精度。其次,数据集的构建依赖于现有ECG数据集和外部资源,如何确保数据的准确性与一致性成为一大难题。此外,多模态模型的训练需要大量计算资源,如何在有限资源下优化模型性能也是一个亟待解决的问题。最后,ECGBench的应用场景涉及医疗诊断,模型的可靠性与安全性至关重要,如何在保证性能的同时满足医疗领域的高标准要求,是未来研究的重要方向。
常用场景
经典使用场景
ECGBench数据集在医学图像处理领域具有重要应用,特别是在心电图(ECG)图像的解释与分析中。该数据集通过提供多样化的ECG图像及其对应的问答对,支持多模态大语言模型(LLMs)在ECG图像理解任务中的训练与评估。经典使用场景包括异常检测和报告生成,这些任务通过从原始信号合成的图像以及从诊断和临床报告中提取的查询和答案来实现。
实际应用
在实际应用中,ECGBench数据集为医疗诊断提供了有力支持。通过训练多模态大语言模型,医生可以更快速、准确地解读ECG图像,辅助诊断心脏疾病。数据集中的异常检测和报告生成任务能够帮助自动化生成诊断报告,减少医生的工作负担,提高诊断效率。
衍生相关工作
ECGBench数据集衍生了一系列相关研究工作,特别是在多模态大语言模型的应用方面。基于该数据集,研究人员开发了多种模型,如PULSE-7B,这些模型在ECG图像理解任务中表现出色。此外,数据集还推动了ECGInstruct等项目的开发,进一步丰富了多模态模型在医学领域的应用场景。
以上内容由遇见数据集搜集并总结生成



