HALLUCINOGEN

github2024-12-30 更新2025-01-03 收录

下载链接：

https://github.com/AikyamLab/hallucinogen

下载链接

链接失效反馈

官方服务：

资源简介：

HALLUCINOGEN是一个用于评估大型视觉语言模型中对象幻觉问题的新基准测试。它引入了多样化的复杂上下文推理提示，称为对象幻觉攻击，专门设计用于查询LVLMs关于目标图像中可能不存在的视觉对象。该基准测试包括60,000个图像-提示组合，涵盖3,000个视觉对象对，并包含四个基本视觉语言任务：识别、定位、视觉上下文推理和反事实推理。

HALLUCINOGEN is a novel benchmark for evaluating object hallucination issues in large vision-language models (LVLMs). It introduces diverse complex contextual reasoning prompts, termed object hallucination attacks, which are specifically designed to query LVLMs about visual objects that may not exist in the target image. This benchmark includes 60,000 image-prompt pairs, covers 3,000 visual object pairs, and encompasses four fundamental vision-language tasks: recognition, localization, visual contextual reasoning, and counterfactual reasoning.

创建时间：

2024-12-24

原始信息汇总

HALLUCINOGEN 数据集概述

数据集简介

HALLUCINOGEN 是一个用于评估大型视觉语言模型（LVLMs）在对象检测和医疗应用中幻觉现象的新基准。该基准引入了多样化的复杂上下文推理提示，称为对象幻觉攻击，专门设计用于查询LVLMs关于目标图像中可能不存在的视觉对象。数据集包含60,000个图像-提示组合，涵盖3,000个视觉-对象对，并包含四个难度递增的基本视觉语言任务：识别、定位、视觉上下文推理和反事实推理。

MED-HALLUCINOGEN 扩展

HALLUCINOGEN 扩展至高风险医疗应用，引入了MED-HALLUCINOGEN，旨在评估LVLMs从生物医学图像（如胸部X光片）中准确诊断疾病的能力。MED-HALLUCINOGEN 包含3,000个独特的X光片和疾病对，每个对配有十个幻觉攻击提示，其中五个用于疾病识别，五个用于定位。

数据集来源

HALLUCINOGEN 的图像-对象对提取自 POPE 基准的所有分割。
MED-HALLUCINOGEN 的胸部X光片和对应诊断疾病数据来自 NIH Chest X-rays。

目录结构

HALLUCINOGEN 目录结构

└── hallucinogen ├── data │ ├── task_name (e.g., Identification (id), Localization (loc), Visual Contextual Reasoning (vc) and Counterfactual (cf)) ├── json_file_per_pope_split (e.g, adversarial (_adv), random (_rand) and popular (_pop)) ...

MED-HALLUCINOGEN 目录结构

└── med_hallucinogen ├── data │ ├── task_name (e.g., Identification (id), Localization (loc)) ├── json_file ...

JSON 文件结构

HALLUCINOGEN JSON 文件结构

{ "question_id": 1, "image": "COCO_val2014_000000310196.jpg", "text": "Is there a snowboard in the image?", "label": "yes", "query_1": "Is the snowboard present in the image?", "query_2": "Determine whether a snowboard is visible in the image.", "query_3": "Assess if a snowboard can be seen in the image.", "query_4": "Find out if a snowboard appears in the photo.", "query_5": "Verify if there is a snowboard in the image." } ...

MED-HALLUCINOGEN JSON 文件结构

{ "image": "images_001/images/00000003_003.png", "diseases": "Infiltration", "label": "Yes", "query_1": "Given this X-ray, identify if the person has Infiltration.", "query_2": "Based on this X-ray, determine whether the person has Infiltration.", "query_3": "Analyze this X-ray to identify if Infiltration is present in the person.", "query_4": "Examine this X-ray and conclude if the person has Infiltration.", "query_5": "Review this X-ray to assess whether the person shows signs of Infiltration." } ...

引用

@inproceedings{seth2024hallucinogen, title={HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models}, author={Seth, Ashish and Manocha, Dinesh and Agarwal, Chirag}, journal={arxiv}, year={2024} }

搜集汇总

数据集介绍

构建方式

HALLUCINOGEN数据集的构建基于POPE基准的所有分割数据，通过提取多样化的图像-对象对，形成了包含60,000个图像-提示组合的基准。这些组合涵盖了3,000个视觉-对象对，并设计了四种逐步复杂的视觉-语言任务：识别、定位、视觉上下文推理和反事实推理。此外，MED-HALLUCINOGEN扩展了该基准，专注于医学应用，使用了来自NIH Chest X-rays的胸部X光图像与相应诊断疾病配对，生成了3,000个独特的X光-疾病对，每个对配有十个幻觉攻击提示。

特点

HALLUCINOGEN数据集的特点在于其引入了多样化的复杂上下文推理提示，即对象幻觉攻击，专门用于查询大型视觉语言模型关于目标图像中可能不存在的视觉对象。该数据集不仅包含了广泛的图像-提示组合，还通过四种逐步复杂的任务，全面评估模型的视觉-语言理解能力。MED-HALLUCINOGEN则进一步聚焦于高风险的医学应用，通过胸部X光图像与疾病诊断的配对，评估模型在生物医学图像中的准确诊断能力。

使用方法

HALLUCINOGEN数据集的使用方法包括加载和处理JSON格式的数据文件，这些文件包含了图像路径、提示文本和标签信息。用户可以通过解析这些文件，获取图像-提示组合，并根据任务类型进行模型评估。MED-HALLUCINOGEN的使用方法类似，用户需加载包含X光图像路径、疾病诊断和提示文本的JSON文件，进行疾病识别和定位任务的评估。通过这种方式，用户可以全面测试和验证大型视觉语言模型在不同任务中的表现。

背景与挑战

背景概述

HALLUCINOGEN数据集由Ashish Seth、Dinesh Manocha和Chirag Agarwal于2024年提出，旨在评估大型视觉语言模型（LVLMs）在对象检测和医学应用中的幻觉现象。该数据集通过引入多样化的复杂上下文推理提示，即对象幻觉攻击，专门设计用于查询目标图像中可能不存在的视觉对象。HALLUCINOGEN包含60,000个图像-提示组合，涵盖3,000个视觉对象对，并设计了四种难度递增的视觉语言任务：识别、定位、视觉上下文推理和反事实推理。此外，该数据集还扩展至高风险医学应用领域，推出了MED-HALLUCINOGEN，用于评估LVLMs在生物医学图像（如胸部X光片）中准确诊断疾病的能力。

当前挑战

HALLUCINOGEN数据集在解决对象幻觉问题方面面临多重挑战。首先，对象幻觉攻击的设计需要高度复杂的上下文推理能力，这对模型的鲁棒性和准确性提出了极高要求。其次，数据集的构建过程中，如何确保图像-提示组合的多样性和代表性，以避免模型在特定场景下的过拟合，是一个关键难题。此外，MED-HALLUCINOGEN在医学领域的应用，要求模型不仅具备高精度的图像分析能力，还需在疾病诊断中表现出极高的可靠性，这对数据质量和模型训练提出了更高标准。最后，如何有效评估和比较不同LVLMs在对象幻觉任务中的表现，也是该数据集面临的重要挑战之一。

常用场景

经典使用场景

HALLUCINOGEN数据集在评估大型视觉语言模型（LVLMs）中的对象幻觉现象方面具有经典应用。通过设计复杂的上下文推理提示，该数据集能够有效测试模型在目标图像中检测不存在对象的能力。其包含的60,000个图像-提示组合和3,000个视觉-对象对，涵盖了从识别到反事实推理的四个逐步增加难度的任务，为研究者提供了一个全面的评估框架。

解决学术问题

HALLUCINOGEN数据集解决了大型视觉语言模型在对象检测和医学图像分析中的幻觉问题。通过引入多样化的对象幻觉攻击提示，该数据集揭示了现有模型在面对复杂推理任务时的局限性，尤其是在高风险的医学应用中。其研究结果表明，大多数模型在面对幻觉攻击时表现接近随机猜测，为改进模型提供了重要的参考依据。

衍生相关工作

HALLUCINOGEN数据集的发布催生了一系列相关研究，特别是在改进大型视觉语言模型的幻觉问题方面。基于该数据集的研究工作提出了多种新的模型训练和评估方法，例如引入更复杂的上下文推理机制和增强模型的反事实推理能力。这些工作不仅推动了视觉语言模型的发展，也为其他领域的幻觉问题研究提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集