MM-Hallu/Hallu-PI

Name: MM-Hallu/Hallu-PI
Creator: MM-Hallu
Published: 2026-05-01 02:41:36
License: 暂无描述

Hugging Face2026-05-01 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MM-Hallu/Hallu-PI

下载链接

链接失效反馈

官方服务：

资源简介：

Hallu-PI是一个用于评估幻觉现象的基准数据集，包含1,110张图像，覆盖了7种扰动场景（Defocus_Blur、Fog_Weather、Gaussian_Noise、Image_Concatenation、Image_Cropping、Pixelation_Digital、Prompt_Misleading）。数据集包含图像、图像名称、扰动类型、对象类型等字段，特别针对Image_Concatenation和Prompt_Misleading两种扰动类型提供了额外的字段描述，如对象存在性、数量属性、颜色、关系以及易产生幻觉的目标对象等。

Hallucination evaluation benchmark with perturbed inputs. 1,110 images across 7 perturbation scenarios (Defocus_Blur, Fog_Weather, Gaussian_Noise, Image_Concatenation, Image_Cropping, Pixelation_Digital, Prompt_Misleading). The dataset includes fields such as image, image name, perturbation type, object type, and additional fields specifically for Image_Concatenation and Prompt_Misleading perturbations, such as object existence, number attributes, colors, relations, and hallucinatory targets.

提供机构：

MM-Hallu

搜集汇总

数据集介绍

构建方式

Hallu-PI数据集旨在系统性地评估多模态大模型在面对扰动输入时的幻觉表现。其构建过程精心设计了七类视觉扰动场景，包括散焦模糊、天气雾化、高斯噪声、图像拼接、图像裁剪、像素化以及误导性提示，共涵盖1110张经过处理的图像。每张图像均通过特定扰动方式生成，并细致标注了图像名称、扰动类型、目标物类别等元信息，尤其针对图像拼接场景，额外标注了物体存在性、数量、颜色及关系等细粒度属性，为量化分析模型幻觉提供了坚实的数据基础。

使用方法

Hallu-PI数据集以Apache-2.0许可发布，其使用方式简洁明了。数据集以parquet文件形式存储，包含训练和测试划分，用户可通过加载'data-*.parquet'文件直接读取。每一条数据包含扰动图像及其对应的图像名称、扰动类型、物体类别等字段。对于图像拼接场景，还可利用'hallucinatory_targets'字段获取模型易于产生幻觉的特定对象列表。该数据集适用于视觉问答场景下的幻觉基准测试，研究者可将扰动图像与原始提示输入至多模态模型，通过比较模型输出与标注的幻觉目标来评估其幻觉倾向。

背景与挑战

背景概述

随着多模态大语言模型在视觉理解领域的迅猛发展，幻觉问题——即模型生成与输入图像不一致或虚假内容的现象——成为制约其可靠性的核心瓶颈。为系统评估模型在复杂现实场景下的鲁棒性，南京大学自然语言处理实验室（NJUNLP）于2023年创建了Hallu-PI基准数据集。该数据集精心设计1，110幅图像，覆盖七种图像扰动场景（如失焦模糊、天气雾化、高斯噪声、图像拼接、裁剪、像素化及误导性提示），旨在探究模型在面对输入质量退化或结构篡改时的幻觉倾向。Hallu-PI的提出填补了现有幻觉评估基准缺乏对输入扰动系统研究的空白，为多模态模型的鲁棒性测试提供了标准化工具，已迅速成为该领域重要参考基准，推动研究者深入理解并缓解幻觉机制的脆弱性。

当前挑战

Hallu-PI所应对的领域挑战在于多模态模型对真实世界输入扰动的脆弱性，这类扰动常导致模型产生与图像语义相悖的幻觉描述，而现有基准多集中于原始清晰图像，未能充分反映实际部署中的输入退化问题。数据集构建过程中面临多重难题：首先，需设计涵盖光学、数字及语义层面的多样化扰动类型，以模拟真实环境中的复合退化；其次，对图像拼接场景需精确标注物体存在性、数量、颜色及关系等细粒度属性，从而量化扰动如何诱发生成性幻觉；最后，误导性提示的构造要求平衡语义模糊性与自然度，避免人为痕迹过重而降低评估有效性。这些挑战不仅考验数据标注的精度与规模，更凸显了系统化扰动评估对推动模型鲁棒性发展的关键价值。

常用场景

经典使用场景

在视觉语言模型（VLM）蓬勃发展的时代，模型对输入图像的微小扰动往往产生不可控的幻觉现象，这成为制约模型鲁棒性的关键瓶颈。Hallu-PI数据集应运而生，它精心构建了涵盖七种扰动场景的1110张图像，包括散焦模糊、雾天天气、高斯噪声、图像拼接、图像裁剪、数字像素化及提示误导等。该数据集最经典的用途在于系统性地评估VLM在面对多样化输入扰动时的幻觉表现，通过定量分析模型在不同扰动类型下的物体识别、属性认知及关系推理能力，为研究者提供了一个标准化的鲁棒性测试基准，从而揭示模型在复杂视觉输入中的脆弱环节。

解决学术问题

长期以来，学术界对视觉语言模型幻觉的研究多集中于干净图像输入场景，而对真实世界中广泛存在的图像退化与扰动情境关注不足。Hallu-PI数据集填补了这一空白，使研究者能够系统探究模型在非理想视觉条件下的幻觉生成机制，并量化扰动类型对模型感知偏差的影响。该数据集的发布推动了对抗性鲁棒性与幻觉评估的交叉研究，为构建更可靠的视觉语言系统提供了关键的理论支撑与实验依据，其意义在于引导学界将评估维度从实验室理想环境拓展至贴近现实的复杂场景，从而更全面地诊断模型的安全隐患。

实际应用

在实际应用层面，Hallu-PI数据集尤其适用于需要高可靠性的视觉问答系统、自动驾驶感知模块及医疗影像辅助诊断等场景。例如，在自动驾驶领域，相机镜头污损或恶劣天气导致的图像退化会引发模型对障碍物数量或类别的错误判断；医疗影像中，像素化或模糊的病变区域可能使模型产生虚假的病灶识别。通过Hallu-PI的测试，开发者能够定位模型在特定扰动下的失效模式，从而针对性优化数据增强策略、设计鲁棒性训练算法或引入防御机制，确保部署系统在真实世界噪声环境下维持低幻觉率的高性能表现。

数据集最近研究