WHOOPS!

Name: WHOOPS!
Creator: 希伯来大学
Published: 2023-08-13 06:37:31
License: 暂无描述

arXiv2023-08-13 更新2024-07-24 收录

下载链接：

https://whoops-benchmark.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

WHOOPS!数据集是由希伯来大学和本古里安大学合作创建的，包含500张由设计师使用Midjourney等公开图像生成工具创建的合成图像。这些图像故意违反常识，旨在挑战AI模型对常识和组合性的理解。数据集不仅包含图像，还有详细的描述和解释，以及视觉问答对，用于评估模型在解释生成、图像描述、跨模态匹配和视觉问答等任务上的表现。WHOOPS!数据集的应用领域主要集中在提升AI模型的视觉常识推理能力，特别是在处理非典型、不合逻辑的图像场景时。

The WHOOPS! Dataset was collaboratively developed by the Hebrew University of Jerusalem and Ben-Gurion University of the Negev. It comprises 500 synthetic images created by designers using public image generation tools such as Midjourney. These images are deliberately designed to violate common sense, aiming to challenge AI models' understanding of common sense and compositionality. In addition to the image samples, the dataset also includes detailed descriptions and explanations, as well as visual question-answering pairs, which are used to evaluate model performance on tasks including explanation generation, image captioning, cross-modal matching and visual question answering. The main application areas of the WHOOPS! Dataset focus on enhancing the visual common-sense reasoning capabilities of AI models, especially when dealing with atypical and illogical image scenes.

提供机构：

希伯来大学

创建时间：

2023-03-14

搜集汇总

数据集介绍

构建方式

在视觉与语言推理领域，构建能够挑战模型常识理解能力的数据集至关重要。WHOOPS! 数据集的构建采用了创新的合成图像生成策略，通过与专业设计师合作，利用 Midjourney、DALL-E 和 Stable-Diffusion 等文本到图像生成模型，精心设计违反常识的图像。设计师首先构思包含两个通常共现元素的提示，随后替换其中一个元素以形成不合常理的组合，例如将爱因斯坦手中的笔记本替换为智能手机。每幅图像均经过约25次迭代优化，确保其“怪异”概念清晰明确，且无额外干扰元素。最终，数据集包含500幅合成图像，并辅以详尽的文本标注。

使用方法

WHOOPS! 数据集主要用于评估视觉与语言模型在常识推理与组合性理解方面的性能。研究者可通过四种核心任务进行模型测试：解释生成任务要求模型识别图像违反的常识规则并提供详细解释；图像描述任务需生成包含异常元素的文字摘要；跨模态匹配任务挑战模型区分详细描述与欠指定描述；视觉问答任务则测试模型对异常图像的理解能力。评估支持零样本和监督学习设置，并提供自动评估指标（如基于GPT-4的评分）以补充人工评判。数据集附带完整的评估代码与排行榜，便于方法比较与结果复现，推动视觉常识推理领域的进步。

背景与挑战

背景概述

WHOOPS! 数据集于2023年由希伯来大学、艾伦人工智能研究所等机构的研究团队联合构建，旨在评估人工智能模型在视觉常识推理与组合性理解方面的能力。该数据集聚焦于突破常规认知的合成图像，通过文本到图像生成工具如Midjourney精心设计500张违背常识的视觉场景，例如描绘爱因斯坦使用智能手机等时空错置情境。其核心研究问题在于探究模型能否像人类一样识别并解释图像中的异常元素，进而推动跨模态推理技术的发展，为视觉与语言融合研究提供了新颖且富有挑战性的评估基准。

当前挑战

WHOOPS! 数据集所针对的视觉常识推理问题面临多重挑战：模型需超越对象识别，融合日常经验、物理规律及文化知识以解释图像中的反常组合；现有先进模型如BLIP2与GPT3在异常解释生成任务上仅达到27%至33%的接受率，远低于人类95%的表现。在构建过程中，挑战主要源于确保图像‘反常性’的明确性与普适性：设计者需通过约25轮迭代优化提示词，消除干扰元素，并跨文化验证图像的可理解性，同时需过滤有害内容以维护数据集的伦理安全性。

常用场景

经典使用场景

在视觉与语言融合研究领域，WHOOPS! 数据集以其精心设计的反常识合成图像，为评估模型的多模态推理能力提供了经典场景。该数据集通过文本生成图像技术，构建了诸如爱因斯坦手持智能手机、熊猫在河中捕食鲑鱼等违背现实逻辑的视觉场景，要求模型不仅识别图像内容，还需理解其中违反常识的复合元素。研究者通常利用该数据集进行零样本或监督式实验，测试模型在解释生成、图像描述、跨模态匹配及视觉问答等任务上的表现，从而系统评估模型对世界知识的掌握程度与组合推理能力。

解决学术问题

WHOOPS! 数据集主要针对当前多模态人工智能在常识推理与组合性理解方面的核心瓶颈。传统视觉语言模型往往依赖表面语言先验或对象共现模式，难以深入理解图像中元素间违背物理规律、时间逻辑或社会规范的隐含矛盾。该数据集通过系统化的反常识图像构建，迫使模型超越单纯的对象识别，进行深层次的关系推理与知识关联。其意义在于为学界提供了可量化的评估基准，揭示了现有模型在解释生成等复杂任务上与人类能力的显著差距，从而推动模型在常识嵌入、因果推理及可解释性方面的革新。

实际应用

在实际应用层面，WHOOPS! 数据集所针对的视觉常识推理能力，对构建可靠的人工智能系统具有广泛价值。在内容审核领域，系统需识别网络图像中违背常识的虚假或误导性信息；在教育科技中，智能辅导系统可借助此类数据评估学生对科学常识或历史知识的理解深度；在创意产业，辅助设计工具需判断生成图像是否符合逻辑一致性。此外，自动驾驶系统需理解交通场景中的异常事件，而医疗影像分析也依赖于对解剖结构合理性的常识判断。该数据集为这些应用场景提供了关键的测试基准与优化方向。

数据集最近研究