VTC-Bench

Name: VTC-Bench
Creator: 香港科技大学（广州）, 上海交通大学, 东北大学, INSAIT索非亚大学“圣克莱门特·奥赫里德斯基”, 上海人工智能实验室, 香港科技大学, 比萨大学, 特伦托大学
Published: 2025-10-08 23:44:28
License: 暂无描述

arXiv2025-10-08 更新2025-11-19 收录

下载链接：

https://github.com/Chenfei-Liao/VTC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VTC-Bench是一个专为公平评估视觉Token压缩方法而设计的评估框架。该数据集旨在解决当前视觉Token压缩方法评估框架不充分的问题，通过引入数据过滤机制来优化和去噪现有基准，从而更公平和准确地评估视觉Token压缩方法。VTC-Bench通过明确区分“简单”和“困难”样本，通过下采样方法自适应和公平地选择满足视觉Token压缩评估要求的“困难”样本。

VTC-Bench is an evaluation framework purpose-built for the fair evaluation of visual token compression methods. This benchmark addresses the inadequacy of current evaluation frameworks for visual token compression methods: it optimizes and denoises existing benchmarks by introducing a data filtering mechanism, enabling more equitable and accurate assessment of visual token compression methods. VTC-Bench explicitly distinguishes between "easy" and "hard" samples, and adaptively and fairly selects "hard" samples that meet the evaluation requirements of visual token compression via downsampling methods.

提供机构：

香港科技大学（广州）, 上海交通大学, 东北大学, INSAIT索非亚大学“圣克莱门特·奥赫里德斯基”, 上海人工智能实验室, 香港科技大学, 比萨大学, 特伦托大学

创建时间：

2025-10-08

搜集汇总

数据集介绍

构建方式

在视觉语言模型加速研究领域，VTC-Bench通过创新性数据过滤机制重构评估框架。该框架基于下采样方法作为判别器，将现有多模态基准中的样本划分为困难样本与简单样本两类，通过三阶段流程实现：首先采用Qwen2-VL模型进行原始分辨率与下采样版本的双路推理，随后依据下采样模型的回答正确性对样本进行动态分类，最终聚合困难样本的评估结果形成去噪后的基准子集。

使用方法

研究者可将任意现有多模态基准注入该框架进行转化，通过配置目标压缩比自动生成对应难度的评估子集。使用过程需加载支持动态分辨率的视觉语言模型（如Qwen2-VL），运行框架提供的三阶段流水线：执行双路推理获取基础响应，依据下采样性能完成样本难度分级，最终在困难样本集上统计待评估压缩方法的性能指标。该框架兼容主流压缩算法（FastV/DART等），并为不同压缩比动态生成适配的挑战性测试集。

背景与挑战

背景概述

视觉令牌压缩作为加速多模态大语言模型推理的关键技术，其评估框架的构建面临严峻挑战。VTC-Bench由香港科技大学（广州）与上海交通大学等机构联合研发，于2025年提出，旨在解决现有基准在视觉令牌压缩任务中的评估偏差问题。该框架通过数据过滤机制重构评估体系，为压缩算法的公平比较提供理论支撑，推动了高效多模态模型研究范式的革新。

当前挑战

领域评估方面，传统多模态基准存在任务失配问题，其设计的感知与推理任务难以准确衡量压缩算法的细粒度信息保留能力。构建过程中需克服样本复杂度偏差，通过降采样筛选机制区分难易样本，同时需平衡不同压缩率下的动态评估需求，并解决跨模型泛化性不足的局限。

常用场景

经典使用场景

在视觉语言模型加速研究领域，VTC-Bench作为专门评估视觉令牌压缩方法的基准框架，其核心应用场景在于对现有多模态基准进行数据去噪处理。通过下采样技术作为数据过滤器，该框架能够有效识别并筛选出对视觉令牌压缩任务具有挑战性的困难样本，为各类压缩算法提供公平且精准的性能评估平台。

解决学术问题

该数据集成功解决了多模态大语言模型评估中存在的任务失配问题。传统基准主要针对模型感知与推理能力设计，未能有效区分视觉令牌压缩任务中的样本难度差异。VTC-Bench通过建立基于下采样的数据过滤机制，显著提升了压缩方法评估的准确性与公平性，为视觉令牌压缩技术的迭代优化提供了可靠的验证基础。

实际应用

在实际应用层面，VTC-Bench为多模态系统的工程部署提供了关键支撑。通过精准评估不同压缩方法在保持视觉理解能力与计算效率间的平衡，该框架指导研发者在自动驾驶、文档分析等需要实时视觉处理的场景中，选择最优的模型加速方案，显著提升系统在资源受限环境下的实用价值。

数据集最近研究