CAG-VLM

Name: CAG-VLM
Creator: 东京大学
Published: 2025-05-08 13:44:52
License: 暂无描述

arXiv2025-05-08 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.04964v1

下载链接

链接失效反馈

官方服务：

资源简介：

CAG-VLM数据集是由东京大学和东京大学医院的研究团队创建的，用于冠状动脉造影图像识别的双语（日语/英语）图像-报告数据集。数据集包含539次检查的14,686帧图像，其中1,114帧图像被标记为关键帧，并与其术前报告和专家验证的诊断和治疗摘要配对。数据集的创建过程包括两个阶段：首先使用卷积神经网络进行关键帧检测和左右侧别标注，然后使用三种开源视觉语言模型进行微调，以生成临床报告和治疗建议。该数据集旨在解决冠状动脉造影图像解释和治疗计划制定中依赖专家的问题，通过AI技术提供辅助决策支持。

The CAG-VLM dataset was developed by a research team from The University of Tokyo and The University of Tokyo Hospital, serving as a bilingual (Japanese/English) image-report dataset for coronary angiography image recognition. It contains 14,686 image frames from 539 examinations, among which 1,114 frames are labeled as key frames and paired with their preoperative reports and expert-validated diagnostic and treatment summaries. The dataset construction process includes two stages: first, Convolutional Neural Networks (CNNs) are employed to conduct key frame detection and left-right laterality annotation; second, three open-source Vision-Language Models (VLMs) are fine-tuned to generate clinical reports and treatment recommendations. This dataset aims to address the expert-dependent challenge in coronary angiography image interpretation and treatment planning, providing auxiliary decision support via artificial intelligence (AI) technologies.

提供机构：

东京大学

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

CAG-VLM数据集的构建采用了两阶段医师指导流程，旨在解决冠状动脉造影（CAG）领域多模态数据稀缺的挑战。研究团队首先从539例CAG检查中采样14,686帧图像，由心血管专家标注关键帧类别（优质/劣质/其他）和左右侧属性（LCA/RCA），并训练ConvNeXt-Base CNN模型实现自动化标注（侧向分类F1达0.96）。第二阶段将CNN模型应用于243例独立检查，提取1,114个关键帧并与患者术前报告、专家验证的诊断及治疗方案摘要配对，形成日英双语平行语料库。这种分层构建方法既保证了数据质量，又实现了图像与结构化临床文本的精准对齐。

特点

该数据集的核心价值在于其临床导向的多模态特性。作为首个公开的冠状动脉造影图像-报告配对数据集，它包含1,114个关键帧及其对应的术前临床报告（含患者病史、检查指征）和专家验证的治疗摘要，覆盖典型与非典型病例。独特的双语架构（日语原报告与英译版本）支持跨语言医学AI研究。数据经过严格质量控制，关键帧选自局部像素强度极值点并保持最小5帧间隔以避免冗余，同时采用患者级数据划分防止信息泄露。特别值得注意的是，数据集包含大量低对比度图像和非常规投照角度，真实反映了临床实践的复杂性。

使用方法

该数据集支持冠状动脉造影AI研究的全流程开发。研究者可基于标注数据训练关键帧提取模型（如六分类ConvNeXt），或用于微调视觉-语言模型（VLM）生成诊断报告。实际应用中，建议先使用CNN模型从原始DICOM序列中筛选关键帧，再输入至Gemma3等微调后的VLM生成初步诊断意见。评估时可采用VLScore量化图像-文本对齐度，该指标通过SigLIP2/MedCLIP等嵌入模型计算生成报告、标准报告与输入图像的表示空间几何关系。对于临床验证，需结合心血管专家对生成报告的准确性（如血管编号正确率）、治疗建议合理性等维度进行人工评分。数据集的患者级划分设计可确保模型验证的可靠性。

背景与挑战

背景概述

冠状动脉疾病（CAD）是全球范围内发病率和死亡率居高不下的主要病因之一，而冠状动脉造影（CAG）作为其诊断的金标准，长期以来依赖心血管专家的主观解读。2025年，东京大学及附属医院的研究团队Nakamura等人提出了CAG-VLM数据集，旨在通过人工智能技术实现CAG图像的自动化分析与诊断支持。该数据集包含来自539例检查的14,686帧图像，标注了关键帧检测和左右侧分类信息，并构建了包含1,114个关键帧与对应诊断报告的日英双语语料库。其创新性体现在将视觉-语言模型（VLMs）首次应用于侵入性CAG领域，通过微调Gemma3等开源模型，实现了从影像到临床报告生成的端到端流程，为心血管AI辅助决策系统的发展奠定了基础。

当前挑战

CAG-VLM面临的挑战主要集中在两个维度：领域问题层面，传统CAG解读存在约22%的专家间判读差异，且低对比度帧、非典型血管角度等复杂场景增加了自动化分析的难度；数据构建层面，需解决医学影像与文本对齐的稀缺性问题（此前无公开的CAG图像-报告配对数据集），同时克服多语言临床报告（日英双语）的语义一致性校验难题。此外，模型微调过程中暴露出血管编号错误率高达70%、治疗建议逻辑不一致等技术瓶颈，反映了医学专业术语嵌入与解剖结构认知的复杂性。这些挑战凸显了侵入性影像模态与生成式AI结合的特殊技术壁垒。

常用场景

经典使用场景

CAG-VLM数据集在冠状动脉疾病诊断领域具有重要的应用价值，其经典使用场景包括通过深度学习模型自动识别冠状动脉造影图像中的关键帧，并结合临床报告生成诊断建议。该数据集通过精细标注的14,686帧图像和1,114个关键帧，为研究人员提供了丰富的多模态数据，支持模型在关键帧检测、左右侧分类以及诊断报告生成等任务中的高效训练与验证。

实际应用

在实际应用中，CAG-VLM数据集为下一代冠状动脉疾病诊断系统提供了关键支持。其训练模型能够辅助心脏病专家快速识别关键帧并生成结构化报告，显著缩短诊断时间并减少人为误差。例如，Gemma3 w/LoRA模型在临床评估中获得了7.20/10的高分，展示了其在真实医疗场景中的实用性和可靠性。

衍生相关工作

CAG-VLM数据集的发布推动了多模态模型在医学影像领域的深入研究。其衍生的经典工作包括基于ConvNeXt-Base的关键帧检测模型、Gemma3 w/LoRA的临床报告生成系统，以及结合ConceptCLIP的增强版视觉编码器。这些工作不仅扩展了数据集的适用范围，还为冠状动脉造影的自动化分析提供了新的技术路径，例如在血管编号和狭窄检测任务中的进一步优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集