Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis

github2025-05-14 更新2025-05-16 收录

下载链接：

https://github.com/bhattarailab/Hallucination-Aware-VLM

下载链接

链接失效反馈

官方服务：

资源简介：

我们使用公开可用的Kvasir-v2图像通过ChatGPT-4o生成医学报告，并由专家进行审查以识别和修正医学幻觉。我们的数据集不仅提供了视觉语言模型（VLM）的修正响应，还包括句子级幻觉标签，提供了关于VLM如何产生幻觉的额外见解。

We utilized the publicly available Kvasir-v2 images to generate medical reports through ChatGPT-4o, which were then reviewed by experts to identify and correct medical hallucinations. Our dataset not only provides corrected responses from Visual Language Models (VLMs) but also includes sentence-level hallucination labels, offering additional insights into how VLMs produce hallucinations.

创建时间：

2025-05-09

原始信息汇总

Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision Language Models

📄 论文信息

论文标题：Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision Language Models
论文链接：https://arxiv.org/pdf/2505.07001
会议信息：Accepted to MICCAI 2025 (Top 9% of submissions)

🧠 关键贡献

提供多模态胃肠（GI）图像-文本数据集，包含VLM生成的描述性响应、专家标记的幻觉句子标签及其对应修正。
使用现有和提出的LLM辅助评估指标对最先进的VLM进行广泛评估。
展示幻觉感知微调相比标准微调在鲁棒性上的改进。

🗂 数据集概述

数据来源：基于公开的Kvasir-v2图像生成。
生成方式：使用ChatGPT-4o生成医学报告，经专家审核并修正医学幻觉。
数据集内容：
- VLM生成的医学报告
- 专家标注：
  - 句子级幻觉标签
  - 事实性修正
示例图片：Data annotation pipeline (Images/data_pipeline_with_stats.png)

📏 评估指标

现有指标局限性：BLEU、ROUGE、METEOR等在上下文长度依赖性、对细微语义差异不敏感、无法评估事实准确性方面存在局限。
提出的LLM辅助指标：
- 报告相似性（R-Sim）：使用ChatGPT-4o评估地面真实与VLM响应的粗粒度语义相似性（1-5分）。
- 问答准确度分数（QAAS）：通过比较VLM响应与12个地面真实问答对，客观测量准确性。

🔥 幻觉感知微调

方法：使用指令微调首先检测预训练VLM响应中的幻觉句子，随后修正响应。
技术：采用标准LORA进行参数高效微调。
示例图片：Hal-aware finetuning (Images/hal-aware.png)

📊 基准测试

评估结果：在多个开源VLM上评估幻觉感知微调策略，展示多评估指标上的性能改进。
示例图表：
- Benchmark Table (Images/MICCAI_benchmark_table.png)
- Fine-grained results (Images/category_comp.png)

🚀 发布信息

即将发布数据集和评估代码。

搜集汇总

数据集介绍

构建方式

在胃肠道医学影像分析领域，构建高质量的多模态数据集对于推动视觉语言模型的发展至关重要。该数据集基于公开的Kvasir-v2胃肠道影像资源，采用ChatGPT-4o生成初步医学报告，随后由医学专家团队进行严格审核，识别并修正其中的医学幻觉内容。构建过程中特别注重标注的精细度，不仅提供修正后的报告版本，还包含句子级别的幻觉标签，完整记录了模型产生幻觉的具体位置和类型。这种专家参与的迭代式标注流程，确保了数据在医学专业性和语言准确性方面达到研究级标准。

使用方法

该数据集为研究者提供了完整的评估框架，使用流程可分为三个主要阶段。在基准测试阶段，研究者可利用内置的R-Sim和QAAS评估指标，通过GPT-4o辅助的语义相似度分析和问答准确性测试来全面评估模型性能。针对模型优化，数据集支持幻觉感知的微调策略，研究者可采用提供的LoRA方法，先训练模型识别自身生成的幻觉内容，再进行针对性修正。数据集中的分层标注信息允许进行细粒度分析，包括按幻觉类型分类的错误模式研究，以及对比不同模型在特定医学概念上的表现差异。这种结构化设计使得从基础评估到深入分析的研究闭环成为可能。

背景与挑战

背景概述

胃肠道图像分析领域近年来在计算机视觉与自然语言处理的交叉研究中备受关注，由Kvasir团队与MICCAI 2025会议研究者联合构建的Hallucination-Aware多模态基准数据集，标志着该领域向可信人工智能迈出了关键一步。该数据集基于公开的Kvasir-v2内窥镜图像库，通过ChatGPT-4o生成医学报告后，由专家团队进行幻觉标注与事实修正，不仅提供句子级幻觉标签，还包含修正后的标准响应，为研究视觉语言模型在医学领域的可靠性提供了首个系统性评估框架。其创新性的幻觉感知微调策略，在12项诊断问题的定量评估中展现出超越传统方法的鲁棒性，对推动医疗AI的可解释性发展具有里程碑意义。

当前挑战

该数据集着力解决医疗多模态模型中普遍存在的语义幻觉问题，其核心挑战在于如何准确识别视觉语言模型生成的虚假医学描述，这类错误在临床场景可能引发严重后果。构建过程中，研究者面临标注一致性的双重考验：既要处理医学文本特有的专业术语变异，又需在开放式生成与结构化诊断之间建立可量化的评估标准。提出的R-Sim和QAAS指标虽然通过GPT-4o缓解了传统度量对语义细微差异的盲区，但LLM自身局限性仍可能导致评估偏差。此外，内窥镜图像与文本模态的异质化表征，使得模型在保持视觉特征敏感度的同时避免过度联想成为技术难点，这要求微调策略必须精确平衡语义生成能力与医学事实约束。

常用场景

经典使用场景

在医学影像分析领域，胃肠道图像的精准解读对临床诊断至关重要。该数据集通过整合多模态图像文本数据，为研究者提供了评估和优化视觉语言模型（VLM）在胃肠道图像分析中生成报告能力的标准基准。其经典使用场景包括模型生成报告的准确性验证、幻觉现象检测与修正，以及多模态医学数据的联合分析。

解决学术问题

该数据集有效解决了医学影像分析中视觉语言模型生成报告的幻觉问题。通过专家标注的句子级幻觉标签及修正内容，研究者能够深入分析模型在医学文本生成中的错误模式，并开发针对性的优化方法。这不仅提升了模型生成报告的可靠性，还为医学自然语言处理领域的可信人工智能研究提供了重要数据支撑。

实际应用

在实际医疗场景中，该数据集可应用于内窥镜影像的智能辅助诊断系统开发。基于其提供的精准标注数据，医疗机构能够训练出更可靠的AI辅助诊断工具，帮助医生快速获取准确的影像解读报告，减少诊断误差。同时，该数据集也为医学教育提供了高质量的案例资源。

数据集最近研究