perona-lab/CompoSET

Name: perona-lab/CompoSET
Creator: perona-lab
Published: 2026-04-24 23:44:46
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/perona-lab/CompoSET

下载链接

链接失效反馈

官方服务：

资源简介：

CompoSET是一个视觉语言组合性基准测试数据集，基于同一场景，单一编辑的原则构建。每对图像（基础图像和变化图像）仅在一个局部属性上有所不同，如颜色、材质、图案、姿势、空间排列等，而场景的其他部分保持不变。这种设计使得评估者能够将模型错误归因于特定的组合编辑，避免了之前基准测试中存在的更广泛场景组合混淆问题。数据集包含80个场景，1,776个有效变化，16种编辑类型，每种变化提供三种不同密度的标题（短、中、长）。数据集结构包括三个parquet文件和一个图像目录，主要用于评估视觉语言模型的组合绑定能力。

CompoSET is a vision-language compositionality benchmark built on the principle of same scene, one edit. Each pair of images (base, var) differs by exactly one localized attribute change — e.g. color, material, pattern, pose, spatial arrangement — while the rest of the scene is held constant. This lets evaluators attribute model errors to the specific compositional edit, isolated from broader scene-composition confounds that plague prior benchmarks. The dataset contains 80 scenes, 1,776 live variations, and 16 edit types, with three caption density tiers (short, medium, long) per variation. The dataset structure includes three parquet files and an image directory, primarily used for evaluating compositional binding in vision-language models.

提供机构：

perona-lab

搜集汇总

数据集介绍

构建方式

CompoSET是一个视觉语言组合性基准测试数据集，基于“同一场景、单一编辑”的核心原则构建。数据集通过Claude与Gemini双模型流水线生成场景图像，并辅以三道质量控制关卡进行筛选。每个场景均先生成一幅完整的基础图像及其校正后的场景描述，随后通过对提示词施加单一局部修改（如颜色、材质、空间关系等）生成对应的变体图像。所有变体经人工质量控制审核，剔除存在基数偏差、场景漂移或编辑模糊的样本，最终保留1776个有效变体，整体废弃率为22.4%。

特点

CompoSET包含80个多样化场景，涵盖室内外环境、不同主体数量及画面构图。数据集定义了16种精细编辑类型，涵盖视觉属性、空间关系、动作姿态及对象替换等多个语义轴，并创新性地引入了颜色、材质和空间关系的互换型编辑以测试模型的属性绑定能力。每个变体均提供短、中、长三种不同密度的描述文本，分别对应ARO、COCO和Flickr30k的标注风格。数据集仅包含测试集，专为评估视觉语言模型的组合性理解能力而设计。

使用方法

CompoSET可通过HuggingFace的datasets库直接加载，也可通过pandas读取parquet文件使用。每个样本包含基础图像、变体图像及其对应的三组描述文本，支持Winoground风格的成对评估（图文匹配、双向召回及分组得分），以及ARO风格的描述对评估、BiVLC/SugarCrepe++风格的图像对评估等多种评价范式。由于编辑类型标签和场景元数据均随数据提供，研究者可针对特定编辑类别进行细粒度失败分析，或利用多变体同场景设计研究场景难度对不同模型的差异化影响。

背景与挑战

背景概述

CompoSET数据集由Laure Delisle与Pietro Perona于2026年创建，旨在解决当前视觉-语言模型在组合性推理上的根本性瓶颈。尽管现有基准如Winoground、SugarCrepe等已揭示模型在属性绑定与空间关系理解上的缺陷，但它们常因场景级混杂变量而难以精准归因错误来源。CompoSET基于“同一场景，单一编辑”的核心设计原则，通过构建80个多物体场景，每个场景生成以唯一局部属性变更（如颜色、材质、姿态）为差异的图像对，并配以短、中、长三种粒度的标注，从而实现对模型组合性错误的隔离式诊断。该数据集提供16种编辑类型，涵盖视觉属性、空间关系、状态变化与角色互换等维度，为系统性评估模型在组合性推理上的细粒度表现设立了新标杆。

当前挑战

CompoSET面临的首要挑战在于所解决的领域问题——视觉-语言模型在组合性绑定与属性-对象关联上的系统性失败。现有模型常混淆颜色与物体的绑定关系或错误理解空间方位，而CompoSET通过单编辑设计精准剔除场景混杂因素，迫使模型暴露对局部属性变更的敏感度。构建过程中，核心挑战包括确保生成图像对中仅包含预期编辑而无额外漂移，为此采用Claude与Gemini多阶段管线并辅以人工质量控制，最终丢弃22.4%的失败变体。此外，受限于多主体场景的天然稀疏性，swap_role类别仅有45个样本，不满足统计显著性阈值，仅能于附录中汇报。图像生成工具自身的漂移率（经抽样检验为0.67%）亦构成评估信心的潜在制约因素。

常用场景

经典使用场景

CompoSET作为视觉语言组合性评估基准，经典应用在于系统性检验多模态模型对单一属性编辑的感知能力。每对图像仅在一个局部特征上存在差异，如颜色、材质、模式、空间关系或角色互换，其余场景信息严格保持不变。研究者可借助其短、中、长三种密度级别的标注描述，分别评估模型在简约、完整或细致文本条件下的组合性推理。该测试范式特别适用于Winoground风格评分、图文对匹配以及属性绑定任务，提供了精细化的、不含场景混杂变量的诊断工具。

解决学术问题

该数据集精准解决了视觉语言模型中组合性推理评估的顽固混杂问题——传统基准常因场景整体变化而难以区分模型失误的具体来源。CompoSET通过确保单次编辑的孤立性，使得评估者能够将错误归因于特定的组合性操作，从而厘清模型在属性绑定、空间定位、角色分配等子能力上的独立表现。其十六种编辑类型覆盖视觉属性、空间关系、动作姿态及对象替换等关键维度，为学术界提供了多维度的组合性故障分析框架，显著提升了基准测量的解释力与可诊断性。

衍生相关工作

CompoSET的诞生已激发多项衍生研究，包括基于其单次编辑设计理念构建的多模态模型组合性搜索空间映射工作，以及针对特定编辑类型的故障归因分析工具。研究者借鉴其短/中/长三层描述结构，开发了跨粒度组合性难度曲线，用于预测模型在真实复杂场景中的泛化表现。此外，其16类编辑标签体系被拓展为复合编辑基准，用以探究模型处理多属性同步变化时的认知瓶颈。这些后续工作共同强化了组合性评估领域的方法论基础，使CompoSET成为视觉语言模型可解释性研究中的新标杆。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集