IllusionBench

github2025-06-19 更新2025-06-24 收录

下载链接：

https://github.com/mingZhang614/IllusionBench

下载链接

链接失效反馈

官方服务：

资源简介：

IllusionBench是第一个用于评估视觉语言模型在理解视觉幻觉方面能力的大规模基准数据集。它包括1k+图像、5k+问答对和1k+黄金文本描述，涵盖幻觉的存在、原因和内容。数据集分为经典认知幻觉、陷阱幻觉、真实场景幻觉、石原色盲检测和无幻觉五个类别，并包含三种问题类型：真假判断、多项选择和开放式描述。

IllusionBench is the first large-scale benchmark dataset for evaluating the capability of vision-language models (VLMs) to comprehend visual hallucinations. It contains over 1,000 images, more than 5,000 question-answer pairs, and over 1,000 gold-standard textual descriptions, which cover the existence, causes and content of visual hallucinations. The dataset is categorized into five groups: classic cognitive hallucinations, trap hallucinations, real-world scene hallucinations, Ishihara color blindness test samples, and non-hallucination instances. Additionally, it supports three question types: true-false judgment, multiple-choice questions, and open-ended description tasks.

创建时间：

2025-06-19

原始信息汇总

IllusionBench 数据集概述

数据集简介

名称：IllusionBench
定位：首个用于评估视觉语言模型(VLMs)在视觉错觉理解方面能力的大规模综合基准
规模：
- 1,000+ 图像
- 5,000+ 问答对
- 1,000+ 黄金文本描述

数据集构成

图像分类

经典认知错觉：模糊、扭曲、悖论和虚构错觉
陷阱错觉：经典视觉错觉的编辑版本
真实场景错觉：现实世界物体和场景
石原色盲检测图：经视力健康者验证的图像
无错觉图像：人物、风景等多样化主题

问题类型

判断题：2,000+ 二值问题（语义内容和错觉存在性）
多选题：3,000+ 问题（图像内容细粒度感知和错觉成因）
开放式描述题：每图配有人工撰写的黄金描述（主要内容、错觉存在性及成因）

评估维度

感知任务：经典认知错觉/真实场景错觉/无错觉图像/石原图/陷阱错觉
描述任务：同上五类子集
指标类型：
- 判断题(T/F)
- 多选题(Mul)
- 语义描述(Sem)
- 错觉描述(Illu)

使用方式

数据下载：https://huggingface.co/datasets/MingZhangSJTU/IllusionBench
评估脚本：
- Closed_inference.py（判断题和多选题测试）
- Opened_inference.py（语义和错觉描述测试）

开发团队

机构：上海交通大学
通讯作者：Xiongkuo Min
联系方式：Yiming Zhang (ming_zhang_sjtu@sjtu.edu.cn)

搜集汇总

数据集介绍

构建方式

IllusionBench作为视觉幻觉理解领域的首个大规模基准数据集，其构建过程体现了多维度、系统化的设计理念。研究团队从各类在线资源库中精选了1000余幅图像，涵盖五大类别：经典认知幻觉（如模糊、扭曲、悖论等心理学家设计的合成图像）、陷阱幻觉（物理特性异于经典幻觉的编辑图像）、真实场景幻觉（具有明确语义的真实世界图像）、石原色盲检测图（经视力正常者验证的图案）以及无幻觉对照图像。每幅图像均通过三种任务形式（判断题、选择题、开放式描述）进行多角度标注，最终形成5000余个问答对和1000余条黄金文本描述，完整覆盖幻觉的存在性、成因及内容特征。

特点

该数据集的核心价值在于其全面性与专业性。从内容维度看，IllusionBench首次系统整合了合成幻觉与现实幻觉图像，并创新性地引入陷阱幻觉作为对比样本，为评估模型对人类感知偏差的敏感性提供了独特视角。在任务设计上，通过真假判断、多选推理和开放式描述的三元评估框架，既能量化模型对幻觉的识别准确率，又能深度考察其语义理解与因果解释能力。特别值得注意的是，数据集包含的黄金描述文本由专业人员手工撰写，不仅标注图像主体内容，更详细解析幻觉现象及其成因，为模型的可解释性研究提供了高质量基准。

使用方法

研究者可通过Hugging Face平台便捷获取IllusionBench数据集。评估流程支持灵活适配不同视觉语言模型：对于封闭式任务（判断/选择题），提供Qwen-vl-max API的示例代码Closed_inference.py作为基准测试模板；针对开放式描述任务，则可通过Opened_inference.py实现语义描述与幻觉分析的自动化评估。用户仅需替换模型接口即可快速验证自定义模型性能。数据集采用模块化设计，五大图像类别与三类任务均可独立作为评估子集，便于开展针对性研究。所有问题均附带标准答案，支持准确率计算与生成文本的质量对比分析。

背景与挑战

背景概述

视觉错觉作为认知心理学与计算机视觉交叉领域的重要研究对象，长期以来为理解人类感知机制提供了关键洞见。IllusionBench由上海交通大学张一鸣团队于2023年推出，是首个系统评估视觉语言模型对视觉错觉理解能力的大规模基准数据集。该数据集包含1000余幅涵盖经典认知错觉、陷阱错觉、真实场景错觉等五大类别的图像，配套5000余个结构化问答对及专家标注的黄金描述文本，旨在探究多模态模型在感知错觉存在性、成因解析及语义描述方面的性能边界。其创新性地将心理学实验范式引入人工智能评估体系，为提升模型的人类认知对齐度提供了量化标准。

当前挑战

构建IllusionBench面临双重挑战：在领域问题层面，视觉错觉的复杂认知特性要求模型同时具备低阶视觉特征解析与高阶语义推理能力，传统图像分类任务的评估框架难以捕捉模型对矛盾感知、歧义解析等抽象能力的缺陷；在数据集构建过程中，需平衡错觉类型的多样性与其心理学效度，如陷阱错觉需保持表层相似性而实质违背物理规律，真实场景错觉则要求从自然图像中精确界定错觉边界。此外，人工标注黄金描述时需协调客观事实陈述与主观感知差异，这对标注者的跨学科专业知识提出了极高要求。

常用场景

经典使用场景

在视觉语言模型（VLMs）的研究领域，IllusionBench作为一个专为评估模型对视觉幻觉理解能力而设计的大规模基准测试，其经典使用场景主要集中在模型性能的全面评估上。通过包含超过1千张图像、5千个问答对和1千个黄金文本描述，该数据集能够系统地测试模型在真实或虚假、多选和开放式描述任务中的表现。特别是在经典认知幻觉、陷阱幻觉、真实场景幻觉、石原色盲检测和无幻觉图像等多个子集上的测试，为研究者提供了丰富的实验材料，以验证模型在不同类型视觉幻觉上的理解能力。

解决学术问题

IllusionBench解决了视觉语言模型在理解视觉幻觉方面的关键学术问题。传统上，视觉幻觉作为人类感知与真实物理世界之间的差异现象，一直是心理学和计算机视觉交叉领域的研究难点。该数据集通过系统化的分类和标注，使得研究者能够量化评估模型在幻觉感知上的能力，填补了现有基准测试在这一领域的空白。其意义在于推动了视觉语言模型在复杂感知任务中的进步，为模型与人类感知对齐提供了科学依据。

衍生相关工作

IllusionBench的发布催生了一系列相关研究，尤其是在视觉语言模型的幻觉理解能力提升方面。例如，部分研究基于该数据集的分类和标注方法，提出了新的模型架构或训练策略，以改善模型在幻觉感知任务中的表现。其他工作则利用该数据集的多模态特性，探索了文本描述与视觉幻觉之间的关联机制。这些衍生研究不仅扩展了IllusionBench的应用范围，也为视觉语言模型的进一步发展提供了理论和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集