COMPASS

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/Anon-compass/COMPASS

下载链接

链接失效反馈

官方服务：

资源简介：

COMPASS（COMPositional Analysis of SkillS）是一个用于诊断视觉语言模型组合性失效的控制性评估基准。该数据集旨在探究VLMs在处理复杂描述时性能下降的根源。其核心方法是从Visual Genome场景图出发，构建具有明确对象、属性和关系结构的自然语言描述，从而支持两种针对性的分析：1) 组合集成差距：通过比较模型在组合描述与其分解后的基本元素描述（在匹配的扰动下）上的性能，直接量化联合推理的成本；2) 技能负载：测量每种技能（对象检测、属性绑定、关系推理）如何随着各类基本元素数量的增加而退化，区分自负载（同类型基本元素）和交叉负载（其他类型基本元素）。数据集内容按描述中包含的基本元素类型（原始类型）组织成四个结构层级：L1（仅对象）、L2（对象+属性）、L2（对象+关系）和L3（对象+属性+关系）。每个层级的描述复杂度（基本元素总数N）在一定范围内变化。数据通过三个主要配置提供：`gt-caption` 包含各复杂度下的真实描述；`compositional-integration` 包含用于评估组合集成差距的、匹配的组合描述与分解描述的困难负样本对；`skill-load` 包含用于评估各技能负载的、针对特定基本元素类型（对象、属性或关系）的困难负样本。困难负样本通过语义上合理的替代（例如，用“椅子”替换“沙发”）生成，并经过质量过滤以确保语言上的不可区分性。数据规模方面，总计包含约138万条组合的真实描述，8.7万对用于组合集成评估的样本对，以及27.4万对用于技能负载评估的样本对。数据来源于5K个Visual Genome图像及其对应的场景图。该数据集主要用于通过图像到文本检索任务来评估VLMs。给定一张图像，模型需要将真实描述的相似度得分排在所有困难负样本之上。基于此，可以计算组合集成差距指标Δ，并通过回归分析量化各技能的自负载和交叉负载系数。评估发现揭示了组合性能下降的多因素性：联合推理确实存在成本但仅部分解释了退化；每种技能的退化主要受其自身基本元素数量的影响（自负载主导）；而不同类型基本元素的共存（交叉负载）通常提供有益的上下文 grounding。这些模式在不同架构的VLMs中普遍存在。数据集的主要局限性包括描述由场景图合成生成、Visual Genome固有的标注偏差、以及评估协议目前仅限于检索任务。

COMPASS (COMPositional Analysis of SkillS) is a controlled evaluation benchmark for diagnosing compositional failures in Vision-Language Models (VLMs). The dataset aims to investigate the root causes of performance degradation in VLMs when handling complex descriptions. Its core methodology starts from Visual Genome scene graphs to construct natural language descriptions with explicit object, attribute, and relation structures, thereby supporting two targeted analyses: 1) Compositional Integration Gap: by comparing model performance on compositional descriptions versus their decomposed basic element descriptions (under matched perturbations), directly quantifying the cost of joint reasoning; 2) Skill Load: measuring how each skill (object detection, attribute binding, relation reasoning) degrades as the number of various basic elements increases, distinguishing self-load (same type of basic elements) and cross-load (other types of basic elements). The dataset content is organized into four structural levels based on the types of basic elements (primitive types) contained in the descriptions: L1 (objects only), L2 (objects + attributes), L2 (objects + relations), and L3 (objects + attributes + relations). The description complexity (total number of basic elements N) varies within a certain range for each level. Data is provided through three main configurations: `gt-caption` contains real descriptions at various complexities; `compositional-integration` contains hard negative sample pairs for evaluating the compositional integration gap, consisting of matched compositional and decomposed descriptions; `skill-load` contains hard negative samples for evaluating skill load, targeting specific basic element types (objects, attributes, or relations). Hard negative samples are generated through semantically plausible substitutions (e.g., replacing sofa with chair) and undergo quality filtering to ensure linguistic indistinguishability. In terms of data scale, it includes approximately 1.38 million compositional real descriptions, 87,000 sample pairs for compositional integration evaluation, and 274,000 sample pairs for skill load evaluation. The data originates from 5K Visual Genome images and their corresponding scene graphs. This dataset is primarily used to evaluate VLMs through image-to-text retrieval tasks. Given an image, the model must rank the similarity score of the real description above all hard negative samples. Based on this, the compositional integration gap metric Δ can be calculated, and regression analysis can quantify the self-load and cross-load coefficients for each skill. Evaluation findings reveal the multifactorial nature of compositional performance degradation: joint reasoning indeed incurs a cost but only partially explains the degradation; the degradation of each skill is mainly influenced by the number of its own basic elements (self-load dominant); while the coexistence of different types of basic elements (cross-load) typically provides beneficial contextual grounding. These patterns are prevalent across VLMs of different architectures. The main limitations of the dataset include descriptions being synthetically generated from scene graphs, inherent annotation biases in Visual Genome, and the evaluation protocol currently being limited to retrieval tasks.

创建时间：

2026-05-07

原始信息汇总

COMPASS 数据集概述

基本信息

数据集名称：COMPASS（COMPositional Analysis of SkillS）
语言：英语
许可证：Creative Commons Attribution 4.0 International (CC BY 4.0)
任务类型：图像到文本、视觉问答
数据规模：100K–1M 样本
标签：视觉语言、组合性、评估、基准测试、检索、场景图、CLIP

数据集目的

COMPASS 是一个用于诊断视觉语言模型（VLM）组合性失效的受控评估基准。它利用 Visual Genome 场景图构建带有明确对象、属性和关系结构的标题，支持两种针对性分析：

组合整合差距：量化联合推理相对于独立推理的性能成本。
技能负载：测量每种技能（对象检测、属性绑定、关系推理）如何随着原始单元数量的增加而退化。

数据集结构

结构层级

标题根据包含的原始单元类型分为不同层级：

层级	原始单元	复杂度范围（N）
L1 (O)	仅对象	1–10
L2 (OA)	对象 + 属性	2–12
L2 (OR)	对象 + 关系	3–12
L3 (OAR)	对象 + 属性 + 关系	4–12

评估集规模

结构层级	真实标题	组合整合	对象技能负载	属性技能负载	关系技能负载
L3 (OAR)	47K	24K	45K	26K	34K
L2 (OA)	46K	30K	39K	37K	—
L2 (OR)	45K	33K	43K	—	34K

总计：138万条合成的真实标题，87K对用于组合整合评估，274K对用于技能负载评估。

困难负样本

通过将单个原始单元替换为语义合理的替代项构建两类困难负样本：

组合整合负样本：匹配的组合/分解对，具有一一对应的扰动关系。
技能定向负样本：每个标题4个困难负样本，针对单一原始单元类型。

数据字段

`gt-caption`

将复杂度 N 映射到图像的真实标题字符串的字典。

`compositional-integration/composed`

将复杂度 N 映射到组合设置下困难负样本列表的字典。

`compositional-integration/decomposed`

将复杂度 N 映射到分解原始单元条目列表的字典，每个条目包含匹配的困难负样本和被替换的原始单元类型。

`skill-load`

将复杂度 N 映射到4个技能定向困难负样本列表的字典，子文件夹名称指示被探测的技能类型。

数据构建流程

场景图采样：从5K张Visual Genome图像中，通过随机游走方式采样连接的子图。
标题生成：使用 GPT-4o mini 将结构化原始单元集合转换为流畅的自然语言标题。
困难负样本生成：GPT-4o mini 提出语义合理的替换项，经 Sentence Transformers 过滤。
质量控制：GPT-2 困惑度审计确认真实标题与负样本在语言上无法区分。

源数据

基于 Visual Genome（Krishna et al., 2016），使用5K对图像-场景图对。

评估协议

模型使用图像到文本检索进行评估：给定图像，模型需利用相似度分数 s(I, c) 将真实标题排在所有困难负样本之前。

组合整合差距（Δ）：

Δ(c) = R@1_解耦(c) − R@1_组合(c)

技能负载：

R@1_t = β_O · n_O(c) + β_A · n_A(c) + β_R · n_R(c) + α

关键发现

联合推理存在真实但部分的影响：Δ 在各模型和层级上主要为正值，但并不能完全解释观测到的退化。
自负载占主导：每种技能主要随自身原始单元数量增加而退化，属性自负载是最强且最一致的影响。
交叉负载多为正面：不同类型的共现原始单元提供上下文基础而非竞争容量。
组合训练（NegCLIP, CE-CLIP）逆转整合差距（Δ为负值），但未能消除自负载退化。
模式与架构无关：跨对比学习、困难负样本训练和非对比学习模型均成立。

局限性

标题由 Visual Genome 场景图合成生成，未必完全反映自然语言分布。
Visual Genome 继承了已知的注释偏差。
属性和关系技能始终在对象存在下进行评估。
基于检索的协议不适用于生成式 VLM 设置。

引用

bibtex @inproceedings{compass2026, title = {Diagnosing the Sources of Compositional Failure in Vision-Language Models: A Controlled Analysis}, author = {Anonymous}, booktitle = {Advances in Neural Information Processing Systems (NeurIPS)}, year = {2026} }

许可

本数据集采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布。

相关链接

代码：anonymous.4open.science/r/skill-comp-B276
数据集：huggingface.co/datasets/Anon-compass/COMPASS

搜集汇总

数据集介绍

构建方式

COMPASS数据集基于Visual Genome场景图语料，从5000张图像中通过随机游走算法采样连通子图，确保对象、属性和关系结构具备显式标注。随后利用GPT-4o mini通过少量样本提示将结构化的基元集合转化为流畅的自然语言描述，并生成语义上合理的硬负样本——通过替换单一基元（如将“沙发”替换为“椅子”）实现，接着使用Sentence Transformers过滤语义相近候选，确保负样本与真实描述在语言层面上难以区分。最后经GPT-2困惑度审计验证两者的语言不可辨性，从而构建出用于精细诊断视觉-语言模型组合失败根源的受控评估基准。

特点

COMPASS的核心特色在于设计了两项靶向分析机制：组合整合鸿沟与技能负载。前者通过对比在匹配扰动下组合描述与其分解基元表征的模型表现，直接量化联合推理的成本；后者则分别衡量对象检测、属性绑定和关系推理三类技能随各自基元数量增加而退化的程度，区分同一类型基元的自负载与其他基元的交叉负载。该数据集包含约138万条组合地面真值描述、87K个用于组合整合评估的配对样本以及274K个技能负载分析配对，且负样本构建精确到单个基元替换，实现了对性能退化来源的多因素分离。

使用方法

使用COMPASS时，研究人员采用图像到文本检索作为评估协议：给定一张图像，模型需通过相似度评分s(I, c)将真实描述排至所有硬负样本之上。组合整合鸿沟Δ通过分解态与组合态的R@1差值计算，正值表示独立推理优于联合推理。技能负载则通过以对象、属性和关系基元数量为自变量的线性回归模型估计各技能的负载系数β_t，并以图像级别聚类的稳健标准误进行推断。数据集提供三种配置——gt-caption（地面真值）、compositional-integration（组合/分解配对负样本）和skill-load（按技能分组的四个负样本），可灵活支持从宏观退化归因到微观技能敏感性的多层次诊断。

背景与挑战

背景概述

COMPASS（COMPositional Analysis of SkillS）是一个面向视觉语言模型（VLM）组合能力诊断的受控评估基准，由匿名研究团队于2026年在NeurIPS会议上提出。该数据集基于Visual Genome场景图，通过显式构建物体、属性和关系结构来生成标注，旨在系统剖析VLM在组合推理中的退化根源。COMPASS核心研究问题在于分离并量化组合整合损失与个体技能负载对VLM性能的影响，揭示了联合推理仅部分解释性能下降，而各技能的自我负载才是主要退化因素。该基准因其精细的控制变量设计和丰富的对比实验，在组合性视觉语言理解领域产生了重要影响，为后续模型优化提供了明确的诊断方向。

当前挑战

COMPASS所解决的领域问题在于VLM随着描述复杂度增加而性能持续下降，但退化来源难以归因。具体挑战包括：第一，组合整合损失的量化难度，即模型在联合处理多个语义单元时，需区分复杂度带来的自然退化和组合本身造成的额外代价；第二，技能负载的分离挑战，物体检测、属性绑定与关系推理三种技能在不同复杂度下相互干扰，需通过自负载与交叉负载的对比分析来厘清各自影响。在构建过程中，数据集面临从Visual Genome中采样连通子图的多样性控制难题，以及利用GPT-4o mini生成自然语言标注时保证语义一致性和负例难度的平衡，最终通过GPT-2困惑度审计和Sentence Transformers筛选确保生成质量，但合成数据与自然语言分布的差异仍是潜在局限。

常用场景

经典使用场景

在视觉-语言模型（VLM）的评估与诊断领域，COMPASS最经典的使用场景是对模型组合泛化能力的精细化解剖。传统基准测试往往仅提供整体性能指标，难以揭示模型在复杂场景下失败的根本原因。COMPASS创新性地将场景图结构作为控制变量，通过精心设计的组合整合缺口实验，对比模型在组合性描述与其解构后的原子级描述上的表现差异，实现了对模型联合推理代价的分离测量。同时，技能负载分析允许研究者独立观测物体检测、属性绑定与关系推理这三种核心视觉语义能力随元素数量增长的退化规律，为理解组合性失败的多重可分离因素提供了标准化测试平台。

衍生相关工作

COMPASS的诞生催生了若干具有影响力的后续研究工作。在方法论层面，其提出的自载荷与交叉载荷的回归分析框架已被后续研究采纳，用于解析多模态模型在不同视觉任务上的容量分配机制。受COMPASS中组合整合缺口指标的启发，后续工作提出了反向整合缺口概念，探索如何通过对比学习策略同时优化联合推理与独立推理能力，形成了NegCLIP与CE-CLIP等一系列面向组合性的损失函数改进方案。在数据集扩展方向，基于COMPASS的结构化构建范式，衍生出了针对视频理解、时空关系推理等动态场景的组合性评估集，延续了从静态场景图到动态叙事的诊断思路。这些工作共同构成了围绕精细化解剖视觉语言能力的研究脉络。

数据集最近研究