COMPASS
收藏COMPASS 数据集概述
基本信息
- 数据集名称:COMPASS(COMPositional Analysis of SkillS)
- 语言:英语
- 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
- 任务类型:图像到文本、视觉问答
- 数据规模:100K–1M 样本
- 标签:视觉语言、组合性、评估、基准测试、检索、场景图、CLIP
数据集目的
COMPASS 是一个用于诊断视觉语言模型(VLM)组合性失效的受控评估基准。它利用 Visual Genome 场景图构建带有明确对象、属性和关系结构的标题,支持两种针对性分析:
- 组合整合差距:量化联合推理相对于独立推理的性能成本。
- 技能负载:测量每种技能(对象检测、属性绑定、关系推理)如何随着原始单元数量的增加而退化。
数据集结构
结构层级
标题根据包含的原始单元类型分为不同层级:
| 层级 | 原始单元 | 复杂度范围(N) |
|---|---|---|
| L1 (O) | 仅对象 | 1–10 |
| L2 (OA) | 对象 + 属性 | 2–12 |
| L2 (OR) | 对象 + 关系 | 3–12 |
| L3 (OAR) | 对象 + 属性 + 关系 | 4–12 |
评估集规模
| 结构层级 | 真实标题 | 组合整合 | 对象技能负载 | 属性技能负载 | 关系技能负载 |
|---|---|---|---|---|---|
| L3 (OAR) | 47K | 24K | 45K | 26K | 34K |
| L2 (OA) | 46K | 30K | 39K | 37K | — |
| L2 (OR) | 45K | 33K | 43K | — | 34K |
总计:138万条合成的真实标题,87K对用于组合整合评估,274K对用于技能负载评估。
困难负样本
通过将单个原始单元替换为语义合理的替代项构建两类困难负样本:
- 组合整合负样本:匹配的组合/分解对,具有一一对应的扰动关系。
- 技能定向负样本:每个标题4个困难负样本,针对单一原始单元类型。
数据字段
gt-caption
将复杂度 N 映射到图像的真实标题字符串的字典。
compositional-integration/composed
将复杂度 N 映射到组合设置下困难负样本列表的字典。
compositional-integration/decomposed
将复杂度 N 映射到分解原始单元条目列表的字典,每个条目包含匹配的困难负样本和被替换的原始单元类型。
skill-load
将复杂度 N 映射到4个技能定向困难负样本列表的字典,子文件夹名称指示被探测的技能类型。
数据构建流程
- 场景图采样:从5K张Visual Genome图像中,通过随机游走方式采样连接的子图。
- 标题生成:使用 GPT-4o mini 将结构化原始单元集合转换为流畅的自然语言标题。
- 困难负样本生成:GPT-4o mini 提出语义合理的替换项,经 Sentence Transformers 过滤。
- 质量控制:GPT-2 困惑度审计确认真实标题与负样本在语言上无法区分。
源数据
基于 Visual Genome(Krishna et al., 2016),使用5K对图像-场景图对。
评估协议
模型使用图像到文本检索进行评估:给定图像,模型需利用相似度分数 s(I, c) 将真实标题排在所有困难负样本之前。
组合整合差距(Δ):
Δ(c) = R@1_解耦(c) − R@1_组合(c)
技能负载:
R@1_t = β_O · n_O(c) + β_A · n_A(c) + β_R · n_R(c) + α
关键发现
- 联合推理存在真实但部分的影响:Δ 在各模型和层级上主要为正值,但并不能完全解释观测到的退化。
- 自负载占主导:每种技能主要随自身原始单元数量增加而退化,属性自负载是最强且最一致的影响。
- 交叉负载多为正面:不同类型的共现原始单元提供上下文基础而非竞争容量。
- 组合训练(NegCLIP, CE-CLIP)逆转整合差距(Δ为负值),但未能消除自负载退化。
- 模式与架构无关:跨对比学习、困难负样本训练和非对比学习模型均成立。
局限性
- 标题由 Visual Genome 场景图合成生成,未必完全反映自然语言分布。
- Visual Genome 继承了已知的注释偏差。
- 属性和关系技能始终在对象存在下进行评估。
- 基于检索的协议不适用于生成式 VLM 设置。
引用
bibtex @inproceedings{compass2026, title = {Diagnosing the Sources of Compositional Failure in Vision-Language Models: A Controlled Analysis}, author = {Anonymous}, booktitle = {Advances in Neural Information Processing Systems (NeurIPS)}, year = {2026} }
许可
本数据集采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布。
相关链接




