VL-RouterBench

github2026-01-09 更新2026-01-20 收录

下载链接：

https://github.com/K1nght/VL-RouterBench

下载链接

链接失效反馈

官方服务：

资源简介：

VL-RouterBench是第一个为多模态VLM路由量身定制的统一基准测试，包含14个数据集，分为3个任务家族：通用、STEM和图表OCR。数据集包含30,540个样本，519,180个样本-模型推理记录，以及约34.5M总令牌（输入+输出）。

VL-RouterBench is the first unified benchmark specifically tailored for multimodal vision-language model (VLM) routing. It comprises 14 datasets categorized into three task families: General, STEM, and Chart OCR. The benchmark contains 30,540 total samples, 519,180 sample-model inference records, and approximately 34.5 million total tokens (input + output).

创建时间：

2025-12-29

原始信息汇总

VL-RouterBench 数据集概述

数据集简介

VL-RouterBench 是一个专为视觉-语言模型路由设计的基准测试和工具包。它旨在评估在性能和性能-成本双重目标下，在一个视觉-语言模型池中进行路由的效果。

核心特性

首个统一基准：首个专门为多模态VLM路由定制的统一基准。
任务家族：包含14个数据集，分为3个任务家族：通用、STEM、图表OCR。
模型池：包含15个开源模型和2个API模型（GPT-4o和Gemini-Flash-2.5），参数量范围约为1B到78B，以反映真实的质量-成本-延迟权衡空间。
数据规模：包含30,540个样本，519,180条样本-模型推理记录，以及约3450万总令牌数（输入+输出）。数据源自VLM推理/评分记录（VLMEvalKit日志）。
软标签：派生出准确率-成本感知软标签，仅将概率质量分配给正确的模型，从仅考虑准确率到“最便宜的正确模型”平滑插值。
路由器架构：支持两种路由器架构范式：
- 特征级路由器：冻结的文本+图像编码器 + 轻量级分类器/融合模块。
- 端到端路由器：微调多模态骨干网络以直接预测路由的模型。
主要评估指标：平均准确率、平均成本、排名分数和吞吐量。

数据集详情

数据集构成

基准测试整理了14个数据集，涵盖三个任务组：

通用：包括 MMBench, MMStar, MMMU, RealWorldQA, InfoVQA, HallusionBench。
STEM：包括 MathVista, MathVision, MathVerse, AI2D。
图表与OCR/文档：包括 ChartQA, DocVQA, TextVQA, OCRBench。

模型列表

基准测试包含17个VLM（15个开源 + 2个API模型），参数量跨度约为1B–78B。对于MoE风格模型，使用 m-A-n 表示法，意为 mB总参数量，在推理时激活 nB 参数。令牌价格（每百万令牌美元）与 config/pricing.yaml 中的估计值一致。

模型	参数量 (B)	输入价格 ($/1M tokens)	输出价格 ($/1M tokens)
Janus-Pro-1B	1.0	0.05	0.05
DeepSeek-VL2-Tiny	27.0-A-1.0	0.05	0.05
SmolVLM2	2.2	0.06	0.06
Kimi-VL-A3B-Thinking-2506	16.0-A-2.8	0.20	0.25
Phi-3.5-Vision	4.2	0.10	0.10
DeepSeek-VL2	27.0-A-4.5	0.35	0.50
Janus-Pro-7B	7.0	0.18	0.25
MiMo-VL-7B-RL	7.0	0.20	0.30
LLaVA-Next-Vicuna-7B	7.0	0.20	0.20
Qianfan-VL-8B	8.0	0.18	0.25
Pixtral-12B	12.0	0.25	0.35
Gemma3-27B	27.0	0.35	0.50
Qwen2.5-VL-32B-Instruct	32.0	0.40	0.60
Qwen2.5-VL-72B-Instruct	72.0	0.80	1.20
InternVL2.5-78B	78.0	1.00	1.50
Gemini-Flash-2.5	-	0.30	2.40
GPT-4o	-	2.50	10.00

评估指标

采用以准确率、成本和效率为中心的多维评估协议。

平均准确率：测试集上路由决策的平均正确率。
平均成本：测试集上路由决策的平均推理成本。
排名分数：一个多目标分数，对平均准确率和对数归一化成本进行调和平均。
吞吐量：系统效率，以令牌/秒衡量。

主要发现

路由存在巨大提升空间：Oracle与最佳单模型之间的巨大差距表明，路由可以比任何固定的模型选择显著提高成本效益。
路由器性能强劲，但距离Oracle仍有差距：大多数路由器在准确率-成本权衡上超越了最佳单模型基线；RouterDC在比较的方法中排名最高，但所有方法仍显著低于Oracle，表明有巨大的改进空间。
更好的表征有助于特征级路由：更高维度的文本/视觉嵌入改善了特征级路由器；BGE-M3 + SigLIP-L-16 配对表现最佳，通过 Normalize-Concat 进行的简单多模态融合产生了最强的整体排名分数。
端到端 vs. 特征级：端到端路由器通常比特征级路由器获得更好的准确率-成本权衡，但由于更重的多模态骨干网络，可能以略低的吞吐量运行。

数据获取

数据集以预打包的存档文件 vlm_router_data.tar.gz 形式提供，包含运行管道所需的一切。可从以下渠道下载：

Google Drive：https://drive.google.com/file/d/1Va18MW8nJqvatxDXQDQq0t9NAqr93hMg/view?usp=sharing
百度网盘：https://pan.baidu.com/s/1D_P8YwY_E5kDA5dUB-ovng (提取码: xb1s)
Hugging Face：https://huggingface.co/datasets/KinghtH/VL-RouterBench

引用

如果使用VL-RouterBench，请引用： bibtex @misc{huang2025vlrouterbenchbenchmarkvisionlanguagemodel, title={VL-RouterBench: A Benchmark for Vision-Language Model Routing}, author={Zhehao Huang and Baijiong Lin and Jingyuan Zhang and Jingying Wang and Yuhang Liu and Ning Lu and Tao Li and Xiaolin Huang}, year={2025}, eprint={2512.23562}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.23562}, }

搜集汇总

数据集介绍

构建方式

在视觉-语言模型（VLM）路由研究领域，数据集的构建质量直接决定了评估的可靠性与泛化能力。VL-RouterBench的构建过程系统而严谨，其核心源于对VLMEvalKit评估框架输出日志的深度转化与整合。研究团队从14个跨领域数据集中收集了30,540个样本，涵盖通用理解、STEM学科以及图表OCR三大任务族，确保了任务多样性与现实应用场景的覆盖。通过对17个不同规模与成本的VLM进行大规模推理，生成了超过51万条样本-模型推理记录，并在此基础上计算了基于准确性与成本的软标签，为路由决策提供了细粒度的监督信号。整个构建流程通过模块化脚本实现，包括基准构建、令牌统计、矩阵生成与数据完整性验证等多个步骤，最终形成了结构清晰、包含质量矩阵、成本矩阵及元数据注册表的标准化基准数据集。

特点

作为首个专为多模态VLM路由设计的统一基准，VL-RouterBench展现出若干鲜明特征。其数据集构成具有高度的系统性与代表性，不仅样本规模庞大，更通过精心划分的三大任务家族，有效诱导了模型在不同任务上的性能差异，为路由算法提供了必要的决策空间。该基准集成了从1B到78B参数的15个开源模型及2个商业API模型，构建了一个真实反映质量、成本与延迟权衡的模型池。尤为突出的是，它引入了基于准确率-成本感知的软标签机制，能够平滑地在纯准确率导向与最低成本正确模型之间进行插值，为成本敏感型路由提供了灵活的优化目标。此外，基准提供了从特征级到端到端的多种路由器架构范式，并配备了包括平均准确率、平均成本、排名分数和吞吐量在内的多维评估指标，全面衡量路由系统的综合效能。

使用方法

为便于研究者高效利用该基准，VL-RouterBench提供了一套完整的工具链与标准化工作流程。用户首先需下载并解压预打包的数据归档文件，随后可通过执行集成脚本或分步运行的方式，完成从原始评估日志到路由基准数据的完整转换。基准支持两类主要的路由器评估：特征级路由器利用预提取的文本与视觉嵌入，结合轻量级分类器进行路由决策；而端到端路由器则直接基于原始提示词与图像资产，对多模态骨干网络进行微调以预测目标模型。研究社区可通过配置YAML文件灵活调整数据集划分、模型池组成及定价策略，以适应不同的实验设定。训练与评估过程均配有详尽的示例脚本，最终产出包括路由决策报告、性能摘要及详细的每样本分析，为算法比较与性能诊断提供了坚实的数据基础。

背景与挑战

背景概述

随着多模态人工智能的快速发展，视觉-语言模型（VLMs）在图像理解、视觉问答等任务上展现出卓越能力，但不同模型在性能、成本与延迟之间存在显著权衡。为系统评估模型路由策略的效能，VL-RouterBench应运而生。该基准由研究团队于2025年创建，作为首个专为多模态VLM路由设计的统一评测框架，旨在解决如何在多样化任务中智能分配查询至最优模型的核心问题。它整合了14个数据集，涵盖通用、STEM以及图表OCR三大任务族，并纳入17个参数量从10亿至780亿不等的开源与API模型，构建了包含超过30,540个样本的大规模推理记录。这一基准的建立，为探索精度-成本感知的模型调度机制提供了关键实验平台，推动了高效多模态系统部署的研究进展。

当前挑战

VL-RouterBench致力于应对视觉-语言模型路由领域的核心挑战：如何在保证任务准确性的前提下，实现模型选择在计算成本与推理效率之间的最优平衡。具体而言，基准构建面临多重困难：其一，需在多样化的任务场景（如通用理解、科学图表解析）中定义统一的评估指标，以公平比较不同路由策略；其二，整合异构的模型输出与成本数据（包括令牌计数与定价模型）涉及复杂的数据清洗与对齐过程；其三，生成既反映模型正确性又纳入成本因素的软标签，要求设计新颖的概率分配机制。此外，基准还需确保不同架构的路由器（如特征级与端到端路由器）能在同一框架下进行可复现的比较，这对实验设计与工程实现提出了较高要求。

常用场景

经典使用场景

在视觉-语言模型（VLM）的多元化应用生态中，模型选择常面临性能与成本间的权衡困境。VL-RouterBench作为首个专为多模态VLM路由设计的统一基准，其经典使用场景在于系统评估不同路由策略在多样化任务上的效能。研究者通过该基准，能够在涵盖通用理解、STEM学科以及图表OCR的14个数据集上，对比特征级路由与端到端路由等范式，从而在准确率、成本及吞吐量等多维指标间寻求最优平衡，为模型调度决策提供实证依据。

解决学术问题

该数据集致力于解决视觉-语言模型部署中的核心学术问题，即如何在异构模型池中实现智能、自适应的模型选择。传统方法往往依赖单一模型或经验规则，难以在动态任务需求与资源约束下保持最优性能。VL-RouterBench通过构建包含30,540个样本的大规模推理记录，并引入基于准确率-成本的软标签机制，为路由算法研究提供了标准化评估框架。其意义在于首次系统化地量化了路由策略的潜在收益，揭示了模型选择中存在的显著优化空间，推动了多模态模型高效调度这一前沿方向的发展。

衍生相关工作

围绕VL-RouterBench基准，已衍生出一系列探索不同路由架构的经典研究工作。特征级路由方面，研究集中于利用冻结的文本与图像编码器（如BGE-M3与DINOv2）结合轻量级分类器进行预测；端到端路由则尝试直接微调多模态骨干网络（如LXMERT）以实现路由决策。具体而言，RouterDC、VLC、ZOOTER等端到端方法在基准测试中展现了优越的准确率-成本权衡能力，而基于KNN、线性模型或MLP的特征级方法则提供了更高吞吐量的替代方案。这些工作共同深化了对多模态路由机制的理解，并为后续算法创新奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集