five

HALLUCINOGEN, MED-HALLUCINOGEN

收藏
arXiv2024-12-30 更新2025-01-01 收录
下载链接:
https://github.com/AikyamLab/hallucinogen.git
下载链接
链接失效反馈
官方服务:
资源简介:
HALLUCINOGEN是由马里兰大学帕克分校和弗吉尼亚大学的研究团队创建的一个新颖的视觉问答(VQA)基准数据集,旨在评估大型视觉语言模型(LVLMs)中的物体幻觉问题。该数据集包含60,000个图像-提示组合,涉及3,000个视觉对象对,通过多样化的上下文推理提示来测试模型在识别、定位和视觉推理任务中的表现。MED-HALLUCINOGEN是HALLUCINOGEN的扩展,专注于医学图像中的疾病幻觉问题,特别是针对胸部X光片的诊断。该数据集通过设计疾病幻觉攻击,评估LVLMs在生物医学领域中的幻觉表现,旨在识别在关键医疗场景中部署这些模型时可能存在的风险。

HALLUCINOGEN is a novel visual question answering (VQA) benchmark dataset developed by research teams from the University of Maryland, College Park and the University of Virginia, which is designed to assess object hallucination issues in large vision-language models (LVLMs). This dataset contains 60,000 image-prompt pairs involving 3,000 visual object pairs, and tests models' performance on recognition, localization and visual reasoning tasks through diverse contextual reasoning prompts. MED-HALLUCINOGEN is an extension of HALLUCINOGEN, focusing on disease hallucination problems in medical images, specifically chest X-ray diagnosis. This dataset designs disease hallucination attacks to evaluate the hallucination performance of LVLMs in the biomedical field, aiming to identify potential risks when deploying these models in critical medical scenarios.
提供机构:
马里兰大学帕克分校, 弗吉尼亚大学
创建时间:
2024-12-30
搜集汇总
数据集介绍
main_image_url
构建方式
HALLUCINOGEN数据集的构建基于对大规模视觉语言模型(LVLMs)中对象幻觉问题的深入分析。研究者设计了一系列上下文推理提示,称为对象幻觉攻击,用于评估LVLMs在图像中准确识别对象的能力。数据集包含60,000个图像-提示组合,涵盖3,000个视觉对象对。每个样本由图像、提示和对象是否存在的标签组成,提示分为显式和隐式两类,分别用于直接询问对象存在与否或通过复杂查询间接引发幻觉。此外,研究者还扩展了该基准,提出了MED-HALLUCINOGEN,专门用于评估生物医学图像中的疾病幻觉问题。
特点
HALLUCINOGEN数据集的特点在于其多样化的上下文推理提示,这些提示被设计为对象幻觉攻击,旨在挑战LVLMs在视觉语言任务中的表现。数据集不仅包含简单的对象识别任务,还涵盖了定位、视觉上下文推理和反事实推理等复杂任务。通过显式和隐式攻击的结合,数据集能够全面评估LVLMs在面对不存在对象时的表现。MED-HALLUCINOGEN则进一步将这一评估扩展到生物医学领域,特别是胸部X光片的疾病诊断,揭示了LVLMs在关键应用中的潜在风险。
使用方法
HALLUCINOGEN数据集的使用方法主要包括对大规模视觉语言模型进行对象幻觉评估。研究者可以通过数据集中的显式和隐式提示,测试模型在不同视觉语言任务中的表现,如对象识别、定位、上下文推理和反事实推理。评估过程中,模型生成的响应将与真实标签进行对比,以衡量其幻觉程度。MED-HALLUCINOGEN则专门用于评估生物医学图像中的疾病幻觉,通过设计特定的疾病识别和定位提示,测试模型在诊断任务中的准确性。数据集的使用有助于识别和改进LVLMs在关键应用中的幻觉问题。
背景与挑战
背景概述
HALLUCINOGEN和MED-HALLUCINOGEN是由马里兰大学和弗吉尼亚大学的研究团队于2024年提出的基准数据集,旨在评估大型视觉语言模型(LVLMs)中的物体幻觉现象。物体幻觉是指模型在图像中错误识别或分类物体的现象,这一问题在复杂的多模态任务中尤为突出。HALLUCINOGEN通过设计多样化的上下文推理提示,评估LVLMs在目标图像中准确识别物体的能力,而MED-HALLUCINOGEN则专注于生物医学领域,特别是在胸部X光片等高风险医疗应用中的幻觉问题。该数据集的提出填补了现有基准在复杂上下文推理和医疗应用中的空白,为LVLMs的幻觉问题提供了新的评估工具。
当前挑战
HALLUCINOGEN和MED-HALLUCINOGEN面临的挑战主要体现在两个方面。首先,在解决领域问题上,LVLMs在处理复杂视觉语言任务时,容易因上下文推理的复杂性而产生物体幻觉,特别是在隐式攻击中,模型需要先推断物体的存在性,再进行位置或上下文描述,这增加了幻觉的风险。其次,在构建数据集过程中,设计多样化的上下文推理提示和医疗领域的幻觉攻击提示需要高度的专业知识和精细的标注,以确保评估的全面性和准确性。此外,医疗领域的数据标注和验证尤为复杂,需要确保数据的高质量和可靠性,以避免在关键应用中产生误导性结果。
常用场景
经典使用场景
HALLUCINOGEN和MED-HALLUCINOGEN数据集主要用于评估大型视觉语言模型(LVLMs)中的物体幻觉现象。通过设计一系列复杂的上下文推理提示,这些数据集能够测试模型在识别、定位和视觉推理任务中的表现,尤其是在面对不存在于图像中的物体时,模型是否会产生幻觉响应。经典的使用场景包括视觉问答(VQA)任务,特别是在医疗图像诊断等高精度要求的领域中,模型的表现尤为重要。
实际应用
在实际应用中,HALLUCINOGEN和MED-HALLUCINOGEN数据集被广泛用于测试和优化LVLMs在医疗诊断、自动驾驶和智能客服等领域的表现。例如,在医疗图像分析中,模型需要准确识别和定位疾病,避免因幻觉导致的误诊。这些数据集的应用有助于提升模型在高风险场景中的可靠性,确保其在实际应用中的安全性。
衍生相关工作
HALLUCINOGEN和MED-HALLUCINOGEN数据集催生了一系列相关研究,特别是在幻觉缓解策略和模型优化方面。例如,研究者基于这些数据集提出了多种幻觉缓解技术,如视觉对比解码(VCD)和基于人类反馈的强化学习(RLHF)。此外,这些数据集还推动了针对医疗领域的专用LVLMs的开发,如LLaVA-Med,进一步提升了模型在医疗图像诊断中的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作