ViC-Bench

Name: ViC-Bench
Creator: 西安交通大学; 美团 Inc; 中国科学技术大学; 浙江实验室
Published: 2025-05-20 22:18:54
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

http://arxiv.org/abs/2505.14404v1

下载链接

链接失效反馈

官方服务：

资源简介：

ViC-Bench是一个专门用于评估视觉交织思维链（VI-CoT）能力的基准数据集，由美团公司开发。该数据集包含四个代表性任务：迷宫导航、拼图游戏、具身长期规划和复杂计数。每个任务都配备了专用的自由风格中间视觉状态（IVS）生成流程，支持函数调用。为了系统地检验VI-CoT能力，我们提出了一套全面的评估方案，包括一个渐进的三阶段策略和有针对性的新指标。此外，我们还建立了增量提示信息注入（IPII）策略，以探索VI-CoT的提示因素。我们广泛地对18种先进的MLLMs进行了评估，揭示了它们VI-CoT能力的关键见解。我们的基准数据集已在Huggingface上公开。ViC-Bench旨在解决现有基准数据集在评估模型推理能力方面的不足，为MLLMs、多模态代理、具身AI和自动驾驶等领域的研究提供基础。

ViC-Bench is a benchmark dataset specifically developed by Meituan for evaluating the visual interleaved chain-of-thought (VI-CoT) capabilities of models. This dataset includes four representative tasks: maze navigation, puzzle game, embodied long-term planning, and complex counting. Each task is equipped with a dedicated free-form intermediate visual state (IVS) generation pipeline that supports function calls. To systematically examine the VI-CoT capabilities, we propose a comprehensive evaluation framework consisting of a progressive three-stage strategy and targeted novel metrics. Furthermore, we establish the Incremental Prompt Information Injection (IPII) strategy to explore the prompt factors for VI-CoT. We have conducted extensive evaluations on 18 state-of-the-art MLLMs, revealing key insights into their VI-CoT capabilities. Our benchmark dataset has been publicly released on Hugging Face. ViC-Bench aims to address the limitations of existing benchmark datasets in evaluating model reasoning capabilities, providing a foundation for research in fields such as MLLMs, multimodal agents, embodied AI, and autonomous driving.

提供机构：

西安交通大学; 美团 Inc; 中国科学技术大学; 浙江实验室

创建时间：

2025-05-20

原始信息汇总

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

基本信息

标题: ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations
作者: Xuecheng Wu, Jiaxing Liu, Danlei Huang, Xiaoyu Li, Yifan Wang, Chen Chen, Liya Ma, Xuezhi Cao, Junxiao Xue
提交日期: 2025年5月20日
arXiv标识符: arXiv:2505.14404v1
DOI: 10.48550/arXiv.2505.14404
领域: 计算机视觉与模式识别 (Computer Vision and Pattern Recognition, cs.CV)

摘要

Visual-Interleaved Chain-of-Thought (VI-CoT) 使多模态大语言模型 (MLLMs) 能够基于逐步的中间视觉状态 (IVS) 持续更新其理解和决策，类似于人类的思考过程。尽管现有基准测试取得了一定进展，但它们提供的IVS较为固定，而非自由风格的IVS，这可能扭曲原始思考轨迹，无法评估模型的内在推理能力。此外，现有基准测试未能系统性地探索IVS对推理性能的影响因素。

数据集内容

任务类型: 包含四个代表性任务：迷宫导航、拼图游戏、具身长程规划和复杂计数。
IVS生成: 每个任务均有专用的自由风格IVS生成管道，支持函数调用。
评估套件: 提出渐进式三阶段策略及针对性新指标，系统性地评估VI-CoT能力。
提示策略: 建立增量提示信息注入 (IPII) 策略，探索VI-CoT的提示因素。
模型评估: 对18种先进MLLM进行了广泛评估，揭示了其VI-CoT能力的关键见解。

可用资源

公开访问: 数据集在Huggingface上公开。
论文链接: View PDF
HTML版本: HTML (experimental)
TeX源码: TeX Source

搜集汇总

数据集介绍

构建方式

ViC-Bench是一个专门用于评估多模态大语言模型（MLLMs）视觉交织思维链（VI-CoT）能力的基准数据集。该数据集包含四个代表性任务：迷宫导航、拼图游戏、具身长程规划和复杂计数。每个任务都有专门的数据构建流程和自由风格的中间视觉状态（IVS）生成管道，支持函数调用。数据构建过程包括原始数据预处理、三阶段构建、IVS生成和人工复核，确保数据的高质量和多样性。

特点

ViC-Bench的主要特点包括自由风格的IVS表示，支持函数调用，能够更自然地评估模型的推理能力。数据集包含四个任务，每个任务有250个独特样本，涵盖了空间推理、语义理解、长程规划和基础感知等多个方面。此外，ViC-Bench还引入了渐进式三阶段评估策略和新的评价指标（如ThinkGain），以全面考察模型的VI-CoT能力。

使用方法

使用ViC-Bench时，研究人员可以通过渐进式三阶段评估策略逐步考察模型的VI-CoT能力。第一阶段采用多项选择问答，第二阶段转为开放式问答，第三阶段则结合自由风格的IVS进行开放式问答。评估过程中，可以使用新提出的Recall、ThinkGain和Legality等指标来量化模型的推理性能。此外，研究人员还可以应用增量提示信息注入（IPII）策略，探索提示因素对VI-CoT能力的影响。

背景与挑战

背景概述

ViC-Bench是由西安交通大学、美团等机构的研究团队于2025年提出的多模态大语言模型（MLLMs）评估基准，专注于评测视觉交织思维链（VI-CoT）能力。该数据集包含迷宫导航、拼图游戏、具身长程规划和复杂计数四项代表性任务，通过支持自由式中间视觉状态（IVS）生成的专用流程，突破了现有基准固定IVS表示的局限。其创新性的三阶段渐进评估策略和新型度量指标（如ThinkGain），为理解MLLMs的视觉推理能力提供了系统性框架，对多模态推理、具身智能等领域具有重要推动作用。

当前挑战

ViC-Bench面临双重挑战：在领域问题层面，需解决MLLMs在动态视觉语境下的连续状态更新难题，例如迷宫导航中的空间认知偏差和拼图任务中的语义连贯性判断；在构建层面，自由式IVS生成需平衡创造性表达与评估效度，如复杂计数任务中需设计粗粒度区域掩码以避免过度思考。此外，三阶段评估设计需确保各阶段难度梯度的合理性，而IPII策略的实施则需精确控制提示信息的增量注入对模型推理路径的影响。

常用场景

经典使用场景

ViC-Bench数据集专注于评估多模态大语言模型（MLLMs）在视觉交织思维链（VI-CoT）能力上的表现。其经典使用场景包括迷宫导航、拼图游戏、具身长程规划和复杂计数等任务。这些任务要求模型能够基于逐步的中间视觉状态（IVS）动态更新其理解和决策，类似于人类的认知过程。通过提供自由风格的IVS表示，ViC-Bench能够更准确地评估模型的内在推理能力，避免了固定IVS可能导致的思维轨迹扭曲。

解决学术问题

ViC-Bench解决了当前多模态推理领域中的几个关键学术问题。首先，它填补了现有基准测试中自由风格IVS表示的空白，使得模型能够在更自然的环境中展示其推理能力。其次，ViC-Bench通过渐进式的三阶段评估策略和新的度量标准（如ThinkGain），系统地探索了IVS对推理性能的影响。此外，该数据集还引入了增量提示信息注入（IPII）策略，用于研究提示因素对VI-CoT能力的影响，为未来的多模态推理研究提供了重要参考。

衍生相关工作

ViC-Bench的推出催生了一系列相关研究工作。例如，基于其自由风格IVS表示的研究探索了模型在动态视觉环境中的推理能力；IPII策略的应用启发了更多关于提示工程和多模态推理优化的研究。此外，ViC-Bench的任务设计和方法论也被其他基准测试（如MageBench和CoMT）所借鉴，推动了多模态推理评估的标准化和系统化。这些衍生工作不仅扩展了ViC-Bench的应用范围，也为多模态大语言模型的发展提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集