IllusionVQA
收藏github2024-04-08 更新2024-05-31 收录
下载链接:
https://github.com/csebuetnlp/IllusionVQA
下载链接
链接失效反馈官方服务:
资源简介:
IllusionVQA is a dataset of optical illusions and hard-to-interpret scenes designed to test the capability of Vision Language Models in comprehension and soft localization tasks. GPT4V achieved 62.99% accuracy on comprehension and 49.7% on localization, while humans achieved 91.03% and 100% respectively.
视觉错觉视觉问答数据集(IllusionVQA)是一个收录光学错觉与难以解读场景的专用数据集,旨在评估视觉语言模型(Vision Language Model,VLM)在理解任务与软定位任务中的性能表现。GPT4V在理解任务上的准确率达62.99%,在定位任务上的准确率为49.7%;而人类受试者在两项任务上的准确率分别为91.03%与100%。
创建时间:
2024-03-16
原始信息汇总
数据集概述
数据集名称: IllusionVQA
数据集描述: IllusionVQA是一个包含光学错觉和难以解释场景的数据集,旨在测试视觉语言模型在理解和软定位任务中的能力。
数据集性能
IllusionVQA-Comprehension
| 模型 | 0-shot 准确率 | 4-shot 准确率 | 人类准确率 |
|---|---|---|---|
| I-BLIP | 34.25% | 52.87% | - |
| LLaVA | 40.00% | - | - |
| CogVLM | 38.16% | - | - |
| Gemini | 51.26% | - | - |
| GPT4V | 58.85% | 62.99% | 91.03% |
IllusionVQA-Soft-Localization
| 模型 | 0-shot 准确率 | 4-shot 准确率 | 4-shot + CoT 准确率 | 人类准确率 |
|---|---|---|---|---|
| InstructBLIP | 24.3% | - | - | - |
| LLaVA-1.5 | 24.8% | - | - | - |
| CogVLM | 28.0% | - | - | - |
| GPT4V | 40.0% | 46.0% | 49.7% | 100% |
| Gemini Pro | 43.5% | 41.8% | 33.9% | - |
数据集使用许可
许可类型: 创意共享署名-非商业性使用-相同方式共享4.0国际许可协议 (CC BY-NC-SA 4.0)
限制: 该数据集仅用于非商业研究目的,不得用于模型训练。数据集中的图像来自互联网,部分图像的创作者许可尚未获得。如有版权问题,请联系Haz Sameen Shahgir。
搜集汇总
数据集介绍

构建方式
IllusionVQA数据集的构建基于光学错觉和难以解释的场景,旨在测试视觉语言模型在理解和软定位任务中的能力。该数据集通过精心挑选和设计多种类型的光学错觉图像,包括不可能物体、真实场景、尺寸错觉、隐藏元素、欺骗性设计、角度错觉、颜色错觉、编辑场景、颠倒图像、正负空间错觉、圆形螺旋和其他杂项错觉。每类错觉图像均经过详细标注,确保数据集的多样性和挑战性。
特点
IllusionVQA数据集的主要特点在于其高难度和多样性。该数据集包含了多种复杂的光学错觉,能够有效测试模型在视觉理解与定位任务中的表现。与人类相比,当前最先进的视觉语言模型在理解和定位任务上的表现仍有显著差距,这表明该数据集对模型的挑战性极高。此外,数据集的多样性体现在其涵盖了多种错觉类型,确保了模型在不同场景下的泛化能力。
使用方法
使用IllusionVQA数据集时,用户可以通过Hugging Face的datasets库进行加载,并结合OpenAI的GPT-4 Vision模型进行视觉语言任务的测试。数据集提供了详细的图像和问题,用户可以构建多选题(MCQ)并使用模型进行回答。通过这种方式,用户可以评估模型在理解和软定位任务中的表现,并根据结果进行模型优化。
背景与挑战
背景概述
IllusionVQA数据集由Haz Sameen Shahgir等人于2024年创建,旨在测试视觉语言模型在理解和软定位任务中的能力。该数据集包含一系列光学错觉和难以解释的场景,主要研究人员来自多个机构,包括CSE BUET、McGill University等。IllusionVQA的核心研究问题是如何评估和提升视觉语言模型在处理复杂视觉信息时的表现,尤其是在面对光学错觉等具有挑战性的场景时。该数据集的发布对视觉语言模型领域产生了深远影响,推动了模型在理解和定位任务中的性能提升。
当前挑战
IllusionVQA数据集面临的挑战主要集中在两个方面。首先,构建过程中需要收集和标注大量复杂的光学错觉图像,这要求研究人员具备高度的专业知识和细致的标注能力。其次,该数据集旨在解决视觉语言模型在理解和软定位任务中的性能瓶颈,尤其是模型在面对人类能够轻松识别的错觉场景时表现不佳的问题。此外,数据集的版权问题也是一个挑战,因为部分图像的版权尚未完全确认,这限制了数据集的商业使用。
常用场景
经典使用场景
IllusionVQA数据集的经典使用场景主要集中在视觉语言模型的理解和软定位任务上。该数据集通过包含复杂的光学错觉和难以解释的场景,旨在评估模型在这些复杂视觉任务中的表现。研究者们利用该数据集测试模型在识别和解释视觉错觉方面的能力,尤其是在多选题(MCQ)形式的理解任务和软定位任务中,模型的表现与人类表现进行对比,从而揭示模型在视觉理解上的局限性。
实际应用
IllusionVQA数据集在实际应用中具有广泛的前景,特别是在需要高度视觉理解能力的领域。例如,在自动驾驶系统中,模型需要准确识别和解释复杂的视觉场景,以避免潜在的危险。此外,在医疗影像分析、虚拟现实和增强现实等领域,该数据集的应用可以帮助提升系统的视觉理解和交互能力,从而提高用户体验和系统的可靠性。
衍生相关工作
IllusionVQA数据集的发布激发了许多相关研究工作,尤其是在视觉语言模型的改进和评估方面。例如,研究者们基于该数据集开发了新的模型架构和训练方法,以提高模型在理解和定位任务中的表现。此外,该数据集还被用于评估不同视觉语言模型的性能,推动了模型在复杂视觉任务中的应用研究。这些衍生工作不仅丰富了视觉语言模型的研究领域,还为未来的研究提供了宝贵的资源和参考。
以上内容由遇见数据集搜集并总结生成



