Common Objects Out-of-Context (COOCO)

Name: Common Objects Out-of-Context (COOCO)
Creator: 乌德勒支大学, 特伦托大学
Published: 2025-06-27 22:44:45
License: 暂无描述

arXiv2025-06-27 更新2025-07-01 收录

下载链接：

https://github.com/cs-nlp-uu/scenereg

下载链接

链接失效反馈

官方服务：

资源简介：

COOCO数据集是一个用于评估多模态模型在场景上下文中整合对象级和场景级视觉信息能力的全新数据集。该数据集包含18,395张图像，分为原始图像、低、中、高相关性和同类型目标条件。数据集通过在COCO-Search18数据集的基础上引入与场景类型具有不同程度语义相关性的目标对象来构建，旨在研究视觉语言模型在场景语义违规情况下的行为。该数据集可用于评估模型在不同场景上下文和视觉噪声条件下对目标对象识别的依赖程度，以及模型在生成引用表达时的鲁棒性。

The COOCO Dataset is a novel dataset developed to evaluate the capability of multimodal models to integrate object-level and scene-level visual information within contextual scenarios. The dataset comprises 18,395 images, categorized into four conditions: original images, conditions with low, medium, and high semantic correlation targets, and same-type target conditions. Built upon the COCO-Search18 dataset by introducing target objects with varying degrees of semantic relevance to the scene type, this dataset aims to study the behaviors of vision-language models under scenarios of scene semantic violations. This dataset can be used to assess the extent to which models rely on target object recognition under different scene contexts and visual noise conditions, as well as the robustness of models when generating referring expressions.

提供机构：

乌德勒支大学, 特伦托大学

创建时间：

2025-06-27

原始信息汇总

数据集概述

基本信息

数据集名称：scenereg

说明

无其他相关信息。

搜集汇总

数据集介绍

构建方式

COOCO数据集构建基于COCO-Search18子集，通过视觉变换器（ViT）预测场景标签，并采用图像修复技术替换目标对象以创建不同语义相关性的场景。具体步骤包括：从COCO-Search18中筛选不含人物或动物的图像，利用ViT模型对图像进行场景分类，并通过人类生成的典型性评分和语义相似度计算，选择低、中、高相关性的替代对象。最终，通过LaMa修复模型生成包含不同语义相关性对象的图像版本，确保数据集的多样性和可控性。

特点

COOCO数据集的特点在于其精心设计的语义不一致性场景，包含18,395张图像，覆盖低、中、高三种目标对象与场景的语义相关性。数据集通过控制目标对象的替换和噪声注入，提供了丰富的实验条件，用于研究视觉语言模型在语义不一致场景下的表现。此外，COOCO还包含了原始图像和同类别目标替换的对照条件，以排除修复技术本身的影响，确保实验结果的可靠性。

使用方法

COOCO数据集的使用方法主要包括三个步骤：首先，研究人员可以通过提供的图像和场景标签，分析视觉语言模型在不同语义相关性条件下的表现；其次，利用数据集中的噪声注入条件（目标区域、上下文区域或全图噪声），评估模型在噪声干扰下的鲁棒性；最后，通过注意力分析工具，研究模型在处理语义不一致场景时的注意力分配策略。数据集还提供了详细的实验设置和评估指标（如RefCLIPScore和语义相似度），便于复现和扩展研究。

背景与挑战

背景概述

Common Objects Out-of-Context (COOCO) 数据集由乌得勒支大学和特伦托大学的研究团队于2025年提出，旨在探索视觉语言模型（VLMs）在场景语义违反情况下的对象指称能力。该数据集基于COCO-Search18构建，通过精心设计的图像修改流程，引入了不同语义相关度的目标对象，以系统研究场景上下文对模型性能的影响。COOCO的创新性在于首次将场景-对象语义一致性作为可控变量，为多模态模型的可解释性研究提供了重要基准。其核心科学问题是探究VLMs是否像人类一样依赖场景语义来生成对象指称，这一研究对理解模型跨模态推理机制具有深远意义。

当前挑战

COOCO数据集面临的主要挑战体现在两个维度：科学问题层面，现有视觉语言模型在语义不一致场景中表现出显著的性能下降，揭示其上下文推理能力的局限性；数据构建层面，确保替换对象与场景的语义相关度梯度需要复杂的人工标注与计算验证，而大规模高质量图像修改涉及对抗生成网络的稳定性控制。此外，噪声注入实验设计需平衡信息损失与模型可解释性，这对评估框架的鲁棒性提出严格要求。

常用场景

经典使用场景

COOCO数据集在计算机视觉与自然语言处理的交叉研究中扮演着关键角色，尤其在视觉语言模型（VLMs）的上下文理解能力评估中表现突出。通过精心设计的语义违例场景，该数据集能够有效测试模型在对象与场景语义一致性变化下的表现，例如在办公室场景中替换笔记本电脑为火腿等低关联物体。这种设计使得研究者能够深入探究模型如何平衡局部对象特征与全局场景信息，为视觉指代表达生成（REG）任务提供了标准化的测试平台。

衍生相关工作

该数据集已催生多项重要研究，如Junker等人提出的场景语法增强模型（SceneGram）通过引入COOCO的语义违例机制，显著提升了指代表达生成的鲁棒性。LLaVA-OneVision团队利用其分层注意力分析结果，开发出动态焦点调节模块，使模型在噪声环境下能自主切换局部与全局信息权重。后续工作如Zhang等人的跨模态信息流研究，进一步揭示了中层视觉Transformer在语义一致性判断中的核心作用。

数据集最近研究