Gut-VLM

Name: Gut-VLM
Creator: 美国罗切斯特理工学院、尼泊尔应用数学与信息研究所、尼泊尔加德满都大学、瑞士洛桑大学、英国阿伯丁大学
Published: 2025-05-11 22:54:11
License: 暂无描述

arXiv2025-05-11 更新2025-05-14 收录

下载链接：

https://github.com/bhattarailab/Hallucination-Aware-VLM

下载链接

链接失效反馈

官方服务：

资源简介：

Gut-VLM是一个用于胃肠图像分析的多模态图像-文本数据集，由Kvasir-v2图像生成，包含由VLM生成的描述性诊断报告，专家标记的识别幻觉句及其相应修正。数据集由1816张图像组成，分为训练集和测试集，用于评估和训练VLM模型。

Gut-VLM is a multimodal image-text dataset for gastrointestinal image analysis, derived from Kvasir-v2 images. It includes descriptive diagnostic reports generated by VLMs, hallucinated sentences annotated by experts, and their corresponding corrected versions. The dataset comprises 1816 images, divided into training and test sets, and is intended for training and evaluating VLM models.

提供机构：

美国罗切斯特理工学院、尼泊尔应用数学与信息研究所、尼泊尔加德满都大学、瑞士洛桑大学、英国阿伯丁大学

创建时间：

2025-05-11

搜集汇总

数据集介绍

构建方式

Gut-VLM数据集的构建采用了一种创新的两阶段流程，旨在解决医学视觉语言模型（VLM）在胃肠道图像分析中的幻觉问题。首先，利用ChatGPT-4 Omni对Kvasir-v2图像生成初步诊断报告，这一阶段通过专家设计的12个诊断问题提示模型，自动产生包含潜在幻觉的文本描述。随后，由专业胃肠病学家对生成的报告进行系统性审查，标注并修正其中的错误信息，确保最终注释的临床可靠性。该流程不仅优化了标注成本，还通过句子级幻觉标签和修正文本的对比数据，为幻觉检测研究提供了独特资源。

特点

Gut-VLM的核心特点在于其多模态结构与精细化幻觉标注的融合。数据集包含1,816张涵盖正常与异常胃肠道状态的图像，每张图像配套三种文本形式：原始VLM生成报告、专家标注的幻觉句子标签及修正后的标准答案。特别值得注意的是，67.84%的生成报告呈现混合正确与幻觉内容的现象，这一统计特性为研究幻觉模式提供了实证基础。此外，数据集通过诊断问答（VQA）结构化转换，支持细粒度评估与多任务学习，增强了其在临床决策支持系统中的实用价值。

使用方法

该数据集支持三种主要应用范式：首先，可作为基准测试平台，通过ROUGE-L、BLEU等传统指标及创新的R-Sim语义相似度评分，评估VLM生成的胃肠道报告质量。其次，其句子级幻觉标签支持‘幻觉感知微调’策略，即训练模型先检测后修正错误，实验证明该方法较传统微调在QAAS指标上提升7.82%。最后，经ChatGPT转换的诊断问答结构可用于视觉问答任务，例如LLaVA-1.6-7B模型在该任务中准确率从49.26%提升至87.91%，验证了数据在辅助诊断中的潜力。用户可通过GitHub仓库获取完整数据及评估代码。

背景与挑战

背景概述

Gut-VLM数据集由Rochester Institute of Technology、Nepal Applied Mathematics and Informatics Institute for Research (NAAMII)等机构的研究团队于2025年5月发布，旨在解决胃肠道（GI）图像分析领域的关键问题。该数据集基于Kvasir-v2图像构建，通过两阶段标注流程生成：首先利用ChatGPT-4 Omni生成诊断报告，再由医学专家进行校正和标注幻觉内容。作为首个专注于GI领域的多模态视觉语言模型（VLM）基准，Gut-VLM不仅包含图像-文本对，还创新性地标注了幻觉句子及其修正版本，为医学AI的可信度研究提供了重要资源。其核心价值在于推动幻觉检测和修正技术的发展，对提升内窥镜诊断的自动化水平具有显著意义。

当前挑战

Gut-VLM数据集面临双重挑战。在领域问题层面，需解决VLM在医学图像描述中高达30%的幻觉率问题，这对临床决策可靠性构成严峻威胁；同时要平衡生成报告的详细程度与专业准确性，避免简化描述丢失关键诊断信息。在构建过程中，主要挑战包括：1) ChatGPT生成的初始报告存在系统性偏差，需设计专家校正流程确保标注质量；2) 医学专业标注成本高昂，需开发高效的半自动化标注策略；3) 多模态对齐难题，要求文本描述与内窥镜图像的病理特征保持精确对应；4) 评估体系构建困难，需开发兼顾医学专业性和算法可量化的新型评测指标。

常用场景

经典使用场景

Gut-VLM数据集在医学图像分析领域具有重要应用，特别是在胃肠道（GI）内窥镜图像的视觉语言模型（VLM）研究中。该数据集通过提供带有幻觉标注的多模态图像-文本对，为研究人员提供了一个基准平台，用于评估和优化VLM在生成诊断报告时的准确性和可靠性。经典使用场景包括训练和测试VLM模型，以生成与内窥镜图像相关的详细诊断描述，同时识别和纠正模型生成的幻觉文本。

衍生相关工作

Gut-VLM数据集衍生了一系列相关研究，主要集中在幻觉检测和修正技术的开发上。例如，研究人员利用该数据集提出了幻觉感知微调方法，显著提升了VLM在医学图像分析中的性能。此外，该数据集还启发了其他医学多模态数据集的建设，推动了视觉问答（VQA）和自动诊断报告生成等领域的发展。

数据集最近研究