VIBE Benchmark

github2026-02-03 更新2026-02-06 收录

下载链接：

https://github.com/hwanyu112/VIBE-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

VIBE包含1,034个样本，涵盖10个任务，组织成一个三级层次结构，反映了从指示性基础到形态操作再到因果推理的交互和推理复杂性的增加。

VIBE contains 1,034 samples spanning 10 tasks, and is structured into a three-level hierarchical framework that reflects the increasing complexity of interaction and reasoning progressing from deictic grounding, through morphological manipulation, to causal reasoning.

创建时间：

2026-02-02

原始信息汇总

VIBE-Benchmark 数据集概述

数据集基本信息

数据集名称：VIBE-Benchmark
核心任务：视觉指令驱动的图像编辑（Visual Instruction-Driven Image Editing）
样本数量：1,034 个样本
任务数量：10 个任务
组织结构：三层层次结构，反映交互与推理复杂度的递增
许可协议：CC BY-NC 3.0，仅限学术研究用途，禁止商业使用
数据集获取地址：https://huggingface.co/datasets/VIBE-Benchmark/VIBE-Benchmark
相关论文地址：https://arxiv.org/abs/2602.01851
项目主页：https://vibe-benchmark.github.io/

基准结构

Level 1: Deictic（指示性）

角色：选择器（Selector）
焦点：空间基础（Spatial Grounding）
包含任务：
- 添加（Addition， AD）
- 移除（Removal， RM）
- 替换（Replacement， RP）
- 平移（Translation， TR）

Level 2: Morphological（形态学）

角色：蓝图（Blueprint）
焦点：结构约束（Structural Constraints）
包含任务：
- 姿态控制（Pose Control， PC）
- 重新定向（Reorientation， RO）
- 草图实例化（Draft Instantiation， DI）

Level 3: Causal（因果性）

角色：催化剂（Catalyst）
焦点：因果推理（Causal Reasoning）
包含任务：
- 光线控制（Light Control， LC）
- 流体模拟（Flow Simulation， FS）
- 台球（Billiards， BI）

数据集内容与结构

目录结构

VIBE-Benchmark-Dataset/ ├── Tasks/ │ ├── Level-1-Deictic/ │ ├── Level-2-Morphological/ │ └── Level-3-Causal/ ├── Common_Corpus/ │ ├── animation/ │ ├── real-world/ │ └── sketch/

结果文件格式

每个任务的结果 JSON 文件需遵循以下格式： json [ { "id": "Task_0001", "prompt": "Add a red ball to the scene", "saved_image_path": "imgs/sample_001.mp4" } ]

示例文件参考：https://huggingface.co/datasets/VIBE-Benchmark/VIBE-Banana-Pro/blob/main/Dimension-I/Addition/Addition_results.json

评估方法

评估脚本：eval.sh
评估流程：
1. 自动遍历所有 10 个任务。
2. 使用特定于任务的提示评估每个样本（支持多次重复）。
3. 使用详细的每样本分数更新 JSON 文件。
4. 生成包含所有指标均值和方差的聚合摘要。
5. 将执行日志保存到 logs/ 目录。

引用信息

如需在研究中引用 VIBE，请使用以下 BibTeX 条目： bibtex @misc{zhang2026vibe-benchmark, title={How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing}, author={Huanyu Zhang and Xuehai Bai and Chengzu Li and Chen Liang and Haochen Tian and Haodong Li and Ruichuan An and Yifan Zhang and Anna Korhonen and Zhang Zhang and Liang Wang and Tieniu Tan}, year={2026}, eprint={2602.01851}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.01851}, }

注意事项

数据集图像收集自多种来源，已尽力过滤不当内容。如发现任何侵犯版权或隐私的图像，请联系作者。
联系方式：Huanyu Zhang

搜集汇总

数据集介绍

构建方式

在视觉指令驱动的图像编辑领域，VIBE Benchmark的构建体现了严谨的系统化设计理念。该数据集通过精心设计的层级结构，将1034个样本划分为三个渐进式复杂度等级，涵盖了从指示性定位到因果推理的广泛任务范畴。构建过程中，研究团队依据视觉指令的理解深度，将任务细分为十种具体类型，并整合了动画、现实世界及草图等多种视觉语料，确保了数据在语义和视觉层面的丰富性与多样性。

使用方法

使用VIBE Benchmark时，研究者需从Hugging Face平台下载数据集，并按照其层级目录结构组织本地文件。评估流程通过配置的eval.sh脚本自动化执行，该脚本遍历所有任务，利用任务特定提示对模型生成结果进行多轮评分，并生成包含详细指标均值和方差的汇总报告。用户可根据需要调整目标任务变量，灵活测试模型在不同复杂度指令下的编辑性能，从而实现对视觉指令跟随能力的全面量化分析。

背景与挑战

背景概述

在视觉生成模型迅速发展的背景下，视觉指令驱动的图像编辑任务对模型的理解与执行能力提出了更高要求。VIBE基准测试由Huanyu Zhang等研究人员于2026年提出，旨在系统评估模型遵循复杂视觉指令进行图像编辑的性能。该数据集包含1,034个样本，涵盖从空间基础、形态操控到因果推理的十个任务，构建了一个三层级的评估体系，以反映交互与推理复杂度的递增。这一基准的建立，为深入探究多模态模型在细粒度视觉理解与可控生成方面的能力提供了关键工具，推动了视觉指令跟随领域向更严谨、可量化的方向发展。

当前挑战

VIBE基准测试所针对的核心挑战在于评估模型对复杂、分层视觉指令的精确跟随与执行能力，这超越了传统的图像分类或简单编辑任务，要求模型具备深度的空间理解、结构约束推理乃至物理因果关系的建模能力。在数据集构建过程中，挑战主要体现在设计涵盖不同认知层级的多样化任务，并确保指令的明确性与评估的客观性。此外，收集与标注高质量、无歧义的图像-指令对，以及建立可靠、自动化的多维度评估流程，均是构建过程中需要克服的关键难题。

常用场景

经典使用场景

在视觉指令驱动的图像编辑领域，VIBE Benchmark作为一个系统性评估工具，其经典使用场景在于对多模态大模型进行分层能力测试。该基准通过包含1034个样本的十项任务，构建了一个从指示性空间定位、形态结构操控到因果推理的三级复杂度体系。研究者通常利用这一框架，系统性地评估模型在遵循复杂视觉指令时的精确性、鲁棒性与逻辑一致性，从而揭示模型在理解与执行跨模态指令方面的内在局限与潜力。

解决学术问题

VIBE Benchmark致力于解决视觉-语言多模态研究中的一个核心学术问题：如何量化评估模型对开放式、组合式视觉指令的理解与执行能力。传统图像编辑评估往往局限于单一或低层次任务，缺乏对复杂交互与深层推理的系统性考察。该数据集通过精心设计的层级任务结构，为学术界提供了一个标准化、可复现的评估范式，显著推进了对模型指令跟随机制、场景理解深度以及因果推理能力的研究，为构建更可靠、可控的视觉生成系统奠定了理论基础。

实际应用

在实际应用层面，VIBE Benchmark为开发高性能的图像编辑与内容生成系统提供了关键的验证平台。其任务设计紧密贴合现实需求，例如物体添加移除、姿态控制、光影调节乃至物理场景模拟，这些能力直接关联到广告设计、影视特效、游戏资产制作以及教育可视化等产业应用。通过在该基准上的性能评测，工程师能够精准定位现有模型的薄弱环节，从而针对性地优化模型架构与训练策略，推动生成式AI技术在创意产业与自动化内容生产中的安全、可靠落地。

数据集最近研究