COMPACT

Name: COMPACT
Creator: 普林斯顿大学
Published: 2025-05-01 01:57:22
License: 暂无描述

arXiv2025-05-01 更新2025-05-02 收录

下载链接：

https://princetonvisualai.github.io/compact/

下载链接

链接失效反馈

官方服务：

资源简介：

COMPACT是一个视觉复合调整数据集，旨在帮助多模态大型语言模型（MLLMs）从原子能力（A? = 1）到复合能力（A? > 1）的复杂性级别进行扩展。该数据集通过系统地组合10个原子能力，以控制训练样本的复杂性，解决了传统视觉指令调整（VIT）方法通过数据扩展偶然能力组合的局限性。COMPACT数据集在所有基准测试中，都达到了与LLaVA-665K VIT相当的性能，同时使用的数据量不到其10%，并在一些涉及复杂多能力任务的基准测试中超越了它。COMPACT提供了一个可扩展、数据高效的视觉复合调整方案，以改进复杂的视觉语言任务。

COMPACT is a visual composite tuning dataset designed to help multimodal large language models (MLLMs) scale their complexity levels from atomic capabilities (A? = 1) to compositional capabilities (A? > 1). This dataset systematically combines 10 atomic capabilities to control the complexity of training samples, addressing the limitation of traditional visual instruction tuning (VIT) methods that generate accidental capability combinations via data scaling. The COMPACT dataset achieved performance comparable to that of LLaVA-665K VIT across all benchmarks, while using less than 10% of its training data, and outperformed it on several benchmarks involving complex multi-capability tasks. COMPACT provides a scalable, data-efficient visual composite tuning solution to improve complex vision-language tasks.

提供机构：

普林斯顿大学

创建时间：

2025-05-01

原始信息汇总

COMPACT 数据集概述

基本信息

全称: COMPositional Atomic-to-Complex Visual Capability Tuning
开发团队: 普林斯顿大学 Visual AI Lab 与 Meta AI 合作
主要作者: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
论文与代码: Paper | Code

核心创新

数据配方: 通过显式控制训练样本的组合复杂度（k=1,2,3），将原子能力组合成复杂能力
数据效率: 仅需10%的LLaVA-665K VIT数据量即可超越其性能
泛化能力: 在需要4+原子能力的复杂任务上表现突出（MMStar提升83.3%，MM-Vet提升94.0%）

方法架构

原子能力定义
10种基础视觉能力分为3组：
- 属性组: 颜色、形状识别
- 识别组: 物体/动作/文本识别、空间布局理解、计数
- 关系组: 空间关系、物体交互、场景理解
数据生成流程
- 采样原子能力（k=1）
- 生成组合问题（k=1,2,3）
- 质量验证后与指令调优数据结合

关键结果

方法	数据量	相对性能(%)	优势基准
COMPACT	65K	100.18	InfoVQA, SeedBench2Plus, MM-Vet
LLaVA-665K	665K	100.00	MME, TextVQA, CV-Bench
随机子集	65K	95.38	-

消融实验发现

复杂度平衡性
- 平衡分布使性能从96.28%提升至98.83%
原子能力覆盖
- 所有10种能力均对性能有贡献
指令调优比例
- 7% VIT数据即可达到性能饱和
复杂度范围
- k=1,2,3组合训练优于仅k=1或k=1,2

数据特性对比

LLaVA-665K VIT: 简单查询主导（k=1占比高）
COMPACT: 均衡覆盖k=1,2,3复杂度层级

搜集汇总

数据集介绍

构建方式

COMPACT数据集的构建采用了分层次的结构化方法，通过系统性地组合10种原子视觉能力（如物体识别、空间关系理解等）来生成具有明确组合复杂度的训练样本。具体流程包括四个关键步骤：能力采样、对话生成、质量验证和数据集组装。研究者首先从LLaVA-665K数据集中随机选取图像，然后通过Gemini-2.0-Flash模型生成需要整合特定数量原子能力的问题-答案对，最后经过严格的验证流程确保数据质量。这种构建方式特别强调在训练样本中平衡不同组合复杂度（A?=1,2,3）的分布，以解决传统视觉指令调优数据集中简单查询占主导的问题。

特点

COMPACT数据集最显著的特点是其对组合复杂度的精确控制与平衡分布。相比传统视觉指令调优数据集（如LLaVA-665K）中90%的问题仅需1-2种能力，COMPACT确保了从原子能力（A?=1）到复合能力（A?=3）各复杂度层次的均衡覆盖。数据集包含10种经过细粒度定义的原子视觉能力，涵盖属性识别（颜色、形状）、实体识别（物体、动作、文本）和关系理解（空间关系、场景理解）三大类别。这种结构化设计使模型能更高效地学习复杂视觉-语言任务所需的组合推理能力，在仅使用10%数据量的情况下就能达到或超越全量VIT数据集的性能表现。

使用方法

使用COMPACT数据集时，建议将其与少量传统视觉指令调优数据（如5%的LLaVA-665K）混合训练，以兼顾组合能力发展和指令跟随能力。实验表明，这种混合策略在保持数据效率的同时能获得最佳性能。数据集特别适用于提升多模态大语言模型在需要多种视觉能力组合的复杂任务上的表现，如同时需要物体识别、计数和空间关系理解的问题。使用时可通过控制训练样本中组合复杂度的分布（如调整A?=1,2,3样本的比例）来针对性地增强模型在不同难度任务上的表现。对于研究组合泛化或数据效率的研究者，该数据集提供了可精确控制实验变量的理想平台。

背景与挑战

背景概述

COMPACT（COMPositional Atomic-to-Complex Visual Capability Tuning）是由普林斯顿大学和Meta AI的研究团队于2025年提出的一个多模态大语言模型（MLLMs）训练数据集。该数据集旨在解决传统视觉指令调优（VIT）方法在组合复杂性方面的不足，即现有方法主要关注数据量的扩展，而忽略了训练样本的组合复杂性。COMPACT通过显式控制训练样本的组合复杂性，生成一个能够有效训练MLLMs的数据集，使其能够从原子能力（如物体识别、颜色识别）逐步学习复杂能力（如多能力组合任务）。这一方法在多个基准测试中表现优异，甚至在仅使用10%数据量的情况下，性能超越了传统的大规模VIT数据集。

当前挑战

COMPACT面临的挑战主要包括两个方面：1) 领域问题的挑战：多模态大语言模型在简单视觉语言任务中表现良好，但在需要同时结合多种能力的复杂任务（如同时识别物体、计数和理解空间关系）中表现不佳。这种局限性部分源于传统VIT方法在训练样本组合复杂性上的不足。2) 构建过程中的挑战：生成高质量的组合性训练数据需要确保问题自然整合多种能力，且答案必须简洁明确。此外，数据生成过程依赖于闭源模型（如Gemini），可能引入其固有的组合性限制和偏见，同时数据生成成本较高，可能影响可重复性。

常用场景

经典使用场景

COMPACT数据集在视觉-语言多模态大模型（MLLMs）的训练中展现出卓越的适用性，特别是在需要组合多个原子能力的复杂任务场景中。例如，在回答涉及对象识别、颜色判断和空间关系理解的复合问题时，COMPACT通过显式控制训练样本的组合复杂度，显著提升了模型性能。其数据生成流程包括能力采样、对话生成、质量验证和数据集组装四个步骤，确保了训练样本的高质量和多样性。

衍生相关工作

COMPACT的提出催生了一系列围绕组合性学习的研究工作。例如，后续研究扩展了其原子能力框架至更高阶组合（k>3），或探索分层组合方法以提升复杂任务性能。相关工作如ICONS通过梯度驱动数据选择优化VIT效率，与COMPACT的数据生成策略形成互补；而Eagle等模型则借鉴其能力组合思想，进一步提升了前沿视觉-语言模型的综合性能。这些工作共同推动了组合性学习成为多模态研究的重要方向。

数据集最近研究