five

IllusionBench|视觉幻觉数据集|视觉语言模型数据集

收藏
arXiv2025-01-01 更新2025-01-07 收录
视觉幻觉
视觉语言模型
下载链接:
http://arxiv.org/abs/2501.00848v1
下载链接
链接失效反馈
资源简介:
IllusionBench是由上海交通大学图像通信与网络工程研究所创建的一个大规模视觉幻觉理解基准数据集。该数据集包含1051张图像、5548个问答对和1051个黄金文本描述,涵盖了经典认知幻觉、真实场景幻觉、陷阱幻觉等多种类型。数据集通过手动标注的问答对和图像描述,详细记录了幻觉的存在、原因和内容。IllusionBench旨在评估视觉语言模型(VLMs)在真实场景中对视觉幻觉的理解能力,并揭示模型在幻觉识别中的局限性。数据集的应用领域主要集中在视觉语言模型的性能评估和幻觉理解能力的提升,旨在解决模型在复杂视觉场景中的幻觉识别和解释问题。
提供机构:
上海交通大学图像通信与网络工程研究所
创建时间:
2025-01-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
IllusionBench数据集的构建基于对视觉幻觉的深入理解,涵盖了经典认知幻觉、真实场景幻觉、陷阱幻觉以及无幻觉图像等多种类型。数据集的图像来源广泛,经过人工筛选后,最终包含1,051张图像,每张图像均配备了5,548个问答对和1,051个手工标注的文本描述。问答对的生成包括二元判断、多项选择和开放式描述任务,旨在全面评估视觉语言模型(VLMs)对幻觉的理解能力。此外,数据集还引入了Ishihara色盲检测图像和陷阱幻觉图像,以测试模型是否对经典幻觉过度拟合。
特点
IllusionBench数据集的特点在于其多样性和全面性。它不仅包含了经典的认知幻觉图像,还引入了大量真实场景中的幻觉图像,这些图像更具实际应用价值。数据集中的陷阱幻觉图像设计巧妙,旨在揭示模型在遇到与经典幻觉相似但实际不同的图像时可能产生的幻觉问题。此外,每张图像都配备了详细的文本描述,涵盖了图像语义、幻觉的存在及其成因,进一步增强了数据集的实用性。
使用方法
IllusionBench数据集的使用方法主要包括二元判断、多项选择和开放式描述任务。二元判断任务要求模型判断给定的描述是否正确,多项选择任务则要求模型从四个选项中选择正确答案,而开放式描述任务则要求模型生成对图像内容的详细描述。通过这些任务,研究者可以全面评估VLMs在处理视觉幻觉时的表现。此外,数据集还提供了手工标注的认知难度评分,帮助研究者更细致地分析模型在不同难度任务中的表现。
背景与挑战
背景概述
IllusionBench是由上海交通大学图像通信与网络工程研究所的研究团队于2025年提出的一个大规模视觉幻觉理解基准数据集。该数据集旨在评估视觉语言模型(VLMs)在处理视觉幻觉方面的能力,特别是在真实场景中的应用。IllusionBench包含了1051张图像、5548个问答对以及1051条黄金文本描述,涵盖了经典认知幻觉、真实场景幻觉、陷阱幻觉等多种类型。该数据集的提出填补了现有基准数据集在真实场景幻觉评估上的空白,并为VLMs的视觉幻觉理解能力提供了全面的测试框架。通过引入陷阱幻觉和Ishihara色盲检测图像,IllusionBench进一步揭示了当前VLMs在处理复杂视觉场景时的局限性,尤其是在幻觉和感知能力方面的不足。
当前挑战
IllusionBench面临的挑战主要体现在两个方面。首先,视觉幻觉本身具有高度的复杂性和多样性,尤其是在真实场景中,幻觉的产生往往依赖于上下文线索和单眼视觉提示(如透视、遮挡关系、阴影和光照等),这使得VLMs在理解和解释这些幻觉时面临巨大挑战。其次,数据集的构建过程中,研究人员需要确保图像和问答对的多样性和复杂性,以全面评估VLMs的能力。陷阱幻觉的设计尤其具有挑战性,因为它们在外观上与经典幻觉相似,但在物理属性上却截然不同,这要求模型具备更高的推理能力和抗幻觉能力。此外,数据集的标注和评估过程也需克服模型输出格式不一致、幻觉导致的误判等问题,确保评估结果的准确性和可靠性。
常用场景
经典使用场景
IllusionBench数据集在视觉-语言模型(VLMs)的研究中,主要用于评估模型对视觉幻觉的理解能力。通过包含经典认知幻觉、真实场景幻觉以及陷阱幻觉等多种类型的图像,该数据集能够全面测试模型在不同情境下的表现。经典使用场景包括模型在判断图像是否存在幻觉、幻觉的成因以及幻觉内容的描述任务中的表现。这些任务通过真伪判断、多项选择和开放式问题等形式进行,帮助研究者深入理解模型在处理复杂视觉信息时的局限性。
解决学术问题
IllusionBench数据集解决了当前视觉-语言模型在处理视觉幻觉时的诸多挑战。首先,它填补了现有基准数据集在真实场景幻觉方面的空白,使得模型能够在更接近实际应用的环境中接受测试。其次,通过引入陷阱幻觉,数据集揭示了模型在经典幻觉上可能存在的过拟合问题,进一步推动了模型在复杂视觉理解任务中的改进。此外,IllusionBench还为研究者提供了一个多维度的评估框架,帮助量化模型与人类视觉认知之间的差距,为未来的模型优化提供了明确的方向。
衍生相关工作
IllusionBench数据集的推出催生了一系列相关研究工作,尤其是在视觉-语言模型的幻觉理解和视觉认知对齐方面。例如,基于该数据集的研究揭示了GPT-4o等先进模型在处理经典幻觉和陷阱幻觉时的局限性,推动了模型在幻觉识别和描述任务中的改进。此外,IllusionBench还为其他研究者提供了一个标准化的测试平台,促进了视觉幻觉领域的基准数据集开发。相关研究不仅扩展了视觉-语言模型的应用范围,也为人类视觉认知与人工智能的对比研究提供了新的视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录