five

ECGBench|心电图数据集|图像解释数据集

收藏
huggingface2024-10-28 更新2024-12-12 收录
心电图
图像解释
下载链接:
https://huggingface.co/datasets/PULSE-ECG/ECGBench
下载链接
链接失效反馈
资源简介:
ECGBench是一个综合基准数据集,旨在评估涉及真实世界和合成图像的ECG图像解释任务。该数据集的构建侧重于四个关键任务:(1)从现有ECG数据集中重新利用的两个任务——异常检测和报告生成,其中图像从原始信号合成,查询和答案从诊断和临床报告中提取;(2)利用外部资源新开发的两项任务,其中ECG图像以及相应的问题和答案从真实世界来源收集和生成。
创建时间:
2024-10-21
原始信息汇总

ECGBench 数据集概述

数据集配置

配置列表

  • arena
  • code15-test
  • cpsc-test
  • csn-test-no-cot
  • ecgqa-test
  • g12-test-no-cot
  • mmmu-ecg
  • ptb-test
  • ptb-test-report

特征描述

每个配置包含以下特征:

  • id: 数据项的唯一标识符,类型为字符串。
  • image_path: 图像文件的路径,类型为字符串。
  • image: 图像数据,类型为图像。
  • conversations: 对话数据,包含以下子特征:
    • from: 对话来源,类型为字符串。
    • value: 对话内容,类型为字符串或列表。

数据分割

每个配置仅包含一个分割:

  • test: 测试集。

数据量统计

配置名称 测试集样本数 下载大小 (bytes) 数据集大小 (bytes)
arena 50 19384923 19411667.0
code15-test 1400 2057551383 2065472392.8
cpsc-test 2061 2628267902 2657468263.191
csn-test-no-cot 1611 2029090397 2095684181.039
ecgqa-test 1317 1746962442 2043356106.658
g12-test-no-cot 2026 2502859378 2481876459.898
mmmu-ecg 200 152100232 167868095.0
ptb-test 2082 3083085031 3105815703.306
ptb-test-report 500 745567368 745593335.0

数据文件路径

每个配置的测试集数据文件路径如下:

  • arena: arena/test-*
  • code15-test: code15-test/test-*
  • cpsc-test: cpsc-test/test-*
  • csn-test-no-cot: csn-test-no-cot/test-*
  • ecgqa-test: ecgqa-test/test-*
  • g12-test-no-cot: g12-test-no-cot/test-*
  • mmmu-ecg: mmmu-ecg/test-*
  • ptb-test: ptb-test/test-*
  • ptb-test-report: ptb-test-report/test-*
AI搜集汇总
数据集介绍
main_image_url
构建方式
ECGBench数据集的构建基于多模态学习的需求,旨在评估心电图(ECG)图像的解释能力。该数据集通过整合现有ECG数据集中的异常检测和报告生成任务,结合从原始信号合成的图像,以及从诊断和临床报告中提取的查询和答案。此外,数据集还引入了基于外部资源的新任务,收集并生成了真实世界中的ECG图像及其对应的问题和答案。
特点
ECGBench数据集的特点在于其多样性和全面性,涵盖了从合成图像到真实世界图像的多模态数据。数据集包含多个配置,每个配置均包含图像、路径和对话信息,对话部分由问题和答案组成,形式灵活且内容丰富。数据集的规模较大,涵盖了数千个样本,适用于多种ECG图像解释任务的评估。
使用方法
ECGBench数据集的使用方法主要围绕多模态模型的训练和评估展开。用户可以通过HuggingFace平台下载数据集,并利用其提供的图像和对话信息进行模型训练。数据集的多个配置允许用户根据具体任务选择合适的数据子集。此外,数据集还提供了详细的统计信息和排行榜,帮助用户评估模型在不同任务上的表现。
背景与挑战
背景概述
ECGBench数据集由AIMedLab团队于2024年推出,旨在评估多模态大语言模型(LLMs)在心电图(ECG)图像解释方面的能力。该数据集的核心研究问题在于如何通过结合图像与文本信息,提升模型对ECG图像的理解与诊断能力。ECGBench的构建基于现有ECG数据集,通过合成图像和提取诊断报告中的问题与答案,涵盖了异常检测和报告生成等任务。此外,该数据集还引入了来自真实世界资源的ECG图像及相关问答,进一步扩展了其应用范围。ECGBench的发布为医疗人工智能领域提供了新的研究工具,推动了多模态模型在医疗图像分析中的应用。
当前挑战
ECGBench数据集在构建与应用过程中面临多重挑战。首先,ECG图像的多样性与复杂性使得模型在异常检测和报告生成任务中难以达到高精度。其次,数据集的构建依赖于现有ECG数据集和外部资源,如何确保数据的准确性与一致性成为一大难题。此外,多模态模型的训练需要大量计算资源,如何在有限资源下优化模型性能也是一个亟待解决的问题。最后,ECGBench的应用场景涉及医疗诊断,模型的可靠性与安全性至关重要,如何在保证性能的同时满足医疗领域的高标准要求,是未来研究的重要方向。
常用场景
经典使用场景
ECGBench数据集在医学图像处理领域具有重要应用,特别是在心电图(ECG)图像的解释与分析中。该数据集通过提供多样化的ECG图像及其对应的问答对,支持多模态大语言模型(LLMs)在ECG图像理解任务中的训练与评估。经典使用场景包括异常检测和报告生成,这些任务通过从原始信号合成的图像以及从诊断和临床报告中提取的查询和答案来实现。
实际应用
在实际应用中,ECGBench数据集为医疗诊断提供了有力支持。通过训练多模态大语言模型,医生可以更快速、准确地解读ECG图像,辅助诊断心脏疾病。数据集中的异常检测和报告生成任务能够帮助自动化生成诊断报告,减少医生的工作负担,提高诊断效率。
衍生相关工作
ECGBench数据集衍生了一系列相关研究工作,特别是在多模态大语言模型的应用方面。基于该数据集,研究人员开发了多种模型,如PULSE-7B,这些模型在ECG图像理解任务中表现出色。此外,数据集还推动了ECGInstruct等项目的开发,进一步丰富了多模态模型在医学领域的应用场景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

Pet Disease images

Comprehensive Image Dataset for Detecting Pet Diseases Across Multiple Species

kaggle 收录

Kaggle Stock Market Data

该数据集包含多个股票市场的历史数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。

www.kaggle.com 收录