VL-RouterBench
收藏VL-RouterBench 数据集概述
数据集简介
VL-RouterBench 是一个专为视觉-语言模型路由设计的基准测试和工具包。它旨在评估在性能和性能-成本双重目标下,在一个视觉-语言模型池中进行路由的效果。
核心特性
- 首个统一基准:首个专门为多模态VLM路由定制的统一基准。
- 任务家族:包含14个数据集,分为3个任务家族:通用、STEM、图表OCR。
- 模型池:包含15个开源模型和2个API模型(GPT-4o和Gemini-Flash-2.5),参数量范围约为1B到78B,以反映真实的质量-成本-延迟权衡空间。
- 数据规模:包含30,540个样本,519,180条样本-模型推理记录,以及约3450万总令牌数(输入+输出)。数据源自VLM推理/评分记录(VLMEvalKit日志)。
- 软标签:派生出准确率-成本感知软标签,仅将概率质量分配给正确的模型,从仅考虑准确率到“最便宜的正确模型”平滑插值。
- 路由器架构:支持两种路由器架构范式:
- 特征级路由器:冻结的文本+图像编码器 + 轻量级分类器/融合模块。
- 端到端路由器:微调多模态骨干网络以直接预测路由的模型。
- 主要评估指标:平均准确率、平均成本、排名分数和吞吐量。
数据集详情
数据集构成
基准测试整理了14个数据集,涵盖三个任务组:
- 通用:包括 MMBench, MMStar, MMMU, RealWorldQA, InfoVQA, HallusionBench。
- STEM:包括 MathVista, MathVision, MathVerse, AI2D。
- 图表与OCR/文档:包括 ChartQA, DocVQA, TextVQA, OCRBench。
模型列表
基准测试包含17个VLM(15个开源 + 2个API模型),参数量跨度约为1B–78B。对于MoE风格模型,使用 m-A-n 表示法,意为 mB总参数量,在推理时激活 nB 参数。令牌价格(每百万令牌美元)与 config/pricing.yaml 中的估计值一致。
| 模型 | 参数量 (B) | 输入价格 ($/1M tokens) | 输出价格 ($/1M tokens) |
|---|---|---|---|
| Janus-Pro-1B | 1.0 | 0.05 | 0.05 |
| DeepSeek-VL2-Tiny | 27.0-A-1.0 | 0.05 | 0.05 |
| SmolVLM2 | 2.2 | 0.06 | 0.06 |
| Kimi-VL-A3B-Thinking-2506 | 16.0-A-2.8 | 0.20 | 0.25 |
| Phi-3.5-Vision | 4.2 | 0.10 | 0.10 |
| DeepSeek-VL2 | 27.0-A-4.5 | 0.35 | 0.50 |
| Janus-Pro-7B | 7.0 | 0.18 | 0.25 |
| MiMo-VL-7B-RL | 7.0 | 0.20 | 0.30 |
| LLaVA-Next-Vicuna-7B | 7.0 | 0.20 | 0.20 |
| Qianfan-VL-8B | 8.0 | 0.18 | 0.25 |
| Pixtral-12B | 12.0 | 0.25 | 0.35 |
| Gemma3-27B | 27.0 | 0.35 | 0.50 |
| Qwen2.5-VL-32B-Instruct | 32.0 | 0.40 | 0.60 |
| Qwen2.5-VL-72B-Instruct | 72.0 | 0.80 | 1.20 |
| InternVL2.5-78B | 78.0 | 1.00 | 1.50 |
| Gemini-Flash-2.5 | - | 0.30 | 2.40 |
| GPT-4o | - | 2.50 | 10.00 |
评估指标
采用以准确率、成本和效率为中心的多维评估协议。
- 平均准确率:测试集上路由决策的平均正确率。
- 平均成本:测试集上路由决策的平均推理成本。
- 排名分数:一个多目标分数,对平均准确率和对数归一化成本进行调和平均。
- 吞吐量:系统效率,以令牌/秒衡量。
主要发现
- 路由存在巨大提升空间:Oracle与最佳单模型之间的巨大差距表明,路由可以比任何固定的模型选择显著提高成本效益。
- 路由器性能强劲,但距离Oracle仍有差距:大多数路由器在准确率-成本权衡上超越了最佳单模型基线;RouterDC在比较的方法中排名最高,但所有方法仍显著低于Oracle,表明有巨大的改进空间。
- 更好的表征有助于特征级路由:更高维度的文本/视觉嵌入改善了特征级路由器;BGE-M3 + SigLIP-L-16 配对表现最佳,通过 Normalize-Concat 进行的简单多模态融合产生了最强的整体排名分数。
- 端到端 vs. 特征级:端到端路由器通常比特征级路由器获得更好的准确率-成本权衡,但由于更重的多模态骨干网络,可能以略低的吞吐量运行。
数据获取
数据集以预打包的存档文件 vlm_router_data.tar.gz 形式提供,包含运行管道所需的一切。可从以下渠道下载:
- Google Drive:https://drive.google.com/file/d/1Va18MW8nJqvatxDXQDQq0t9NAqr93hMg/view?usp=sharing
- 百度网盘:https://pan.baidu.com/s/1D_P8YwY_E5kDA5dUB-ovng (提取码: xb1s)
- Hugging Face:https://huggingface.co/datasets/KinghtH/VL-RouterBench
引用
如果使用VL-RouterBench,请引用: bibtex @misc{huang2025vlrouterbenchbenchmarkvisionlanguagemodel, title={VL-RouterBench: A Benchmark for Vision-Language Model Routing}, author={Zhehao Huang and Baijiong Lin and Jingyuan Zhang and Jingying Wang and Yuhang Liu and Ning Lu and Tao Li and Xiaolin Huang}, year={2025}, eprint={2512.23562}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.23562}, }




