VL-RouterBench

Name: VL-RouterBench
Creator: 上海交通大学·图像处理与模式识别研究所; 香港科技大学·广州; 香港科技大学
Published: 2025-12-30 00:01:19
License: 暂无描述

arXiv2025-12-30 更新2025-12-31 收录

下载链接：

https://github.com/K1nght/VL-RouterBench

下载链接

链接失效反馈

官方服务：

资源简介：

VL-RouterBench是由上海交通大学与香港科技大学联合构建的大规模视觉-语言模型路由评估基准。该数据集覆盖14个跨任务组数据集，包含30,540个样本，整合15个开源模型和2个API模型，形成519,180个样本-模型对，总token量达34,494,977。数据构建基于VLMEvalKit的原始推理日志，通过自动化验证流程生成质量矩阵和成本矩阵。该基准旨在解决多模态路由系统中模型选择标准不统一的问题，为视觉-语言任务中的动态路由策略提供系统化评估框架，推动跨模态路由技术在质量和成本权衡方面的研究进展。

VL-RouterBench is a large-scale vision-language model routing evaluation benchmark jointly developed by Shanghai Jiao Tong University and The Hong Kong University of Science and Technology. This dataset covers 14 cross-task group datasets, contains 30,540 samples, integrates 15 open-source models and 2 API models, forming 519,180 sample-model pairs with a total token count of 34,494,977. The dataset construction is based on the original inference logs of VLMEvalKit, and quality matrices and cost matrices are generated through an automated verification workflow. This benchmark aims to address the issue of inconsistent model selection criteria in multimodal routing systems, provide a systematic evaluation framework for dynamic routing strategies in vision-language tasks, and promote research progress on the quality-cost trade-off of cross-modal routing technologies.

提供机构：

上海交通大学·图像处理与模式识别研究所; 香港科技大学·广州; 香港科技大学

创建时间：

2025-12-30

原始信息汇总

VL-RouterBench 数据集概述

数据集基本信息

数据集名称：VL-RouterBench
核心定位：一个用于在视觉-语言模型池中进行路由的基准测试和工具包，支持性能和性能-成本双重目标评估。
官方地址：https://huggingface.co/datasets/NPULH/OpenRouterBench
许可证：MIT

核心功能与特点

端到端流程：提供从VLMEvalKit输出构建路由基准、计算token统计、构建质量/成本矩阵、提取嵌入、评估基线模型的完整流程。
成本感知评估：支持RouterArena风格的Rank Score，该分数结合了准确率和基于token的成本。
两类路由策略：
- 特征级路由器：基于预提取的嵌入进行训练，无需端到端的VLM微调。包括knn、prknn、ovr、kmeans、linear、mlp。
- 端到端路由器：直接从文本和图像输入进行训练。包括cosinecls、routerdc、zooter、vlc。
配置驱动：通过config/models.yaml、config/datasets.yaml、config/pricing.yaml配置文件管理模型池、数据集池和定价策略。

数据准备与输入

基础数据来源：VL-RouterBench将VLMEvalKit的输出转换为统一的路由基准。
必需输入目录结构：
- vlm_router_data/VLMEvalKit_evaluation/：用于步骤1和4，包含正确性信号。
- vlm_router_data/VLMEvalKit_inference/：用于步骤2，提取真实模型输出以计算输出token数量。
- vlm_router_data/TSV_images/：可选。如果缺失，基于TSV的样本将回退到空图像。

输出内容

运行完整流程后，将生成以下关键目录和文件：

BENCHMARKS/：包含每个样本的JSONL文件，存储提示词和资源。
ORACLE/score/：存储正确性表的parquet文件。
SPLITS/：训练/开发/测试集的划分文件。
reports/token_statistics/：token计数和基于token的成本报告。
data/matrices/：质量矩阵Y.npz、成本矩阵C.npy和成本边界cost_bounds.json。
EMBEDDINGS/：文本和视觉嵌入的parquet文件。
reports/baselines_evaluation/：基线模型评估总结及逐样本/逐数据集报告。

评估指标

核心指标：Rank Score。
计算方式：结合准确率和对数归一化成本，成本归一化使用data/matrices/cost_bounds.json。
应用场景：作为基线评估和部分路由器开发监控/早停的默认指标。

搜集汇总

数据集介绍

构建方式

在视觉-语言模型路由研究领域，构建一个系统化且可复现的评估基准是推动该领域发展的关键。VL-RouterBench的构建过程以VLMEvalKit框架的原始推理与评分日志为基础，通过自动化流程提取了样本-模型对的性能与成本数据。具体而言，对于每个样本，基准保留了图像路径、文本指令、各候选模型的原始输出、基于规则评估得到的正确性标签作为质量指标，以及输入输出令牌数以计算样本级推理成本。基于大规模数据收集，该基准覆盖了三大任务组（通用、STEM、图表OCR）下的14个数据集，共计30,540个样本，并纳入了15个开源模型与2个API模型，最终形成了519,180个完整的样本-模型对记录，总令牌量达到34,494,977，从而构建了统一的质量矩阵与成本矩阵，为路由系统的训练与评估提供了坚实的数据基础。

特点

VL-RouterBench的核心特点在于其系统性、规模性与可扩展性。基准设计了一个完整的流水线，涵盖路由数据准备、路由器训练与路由器评估三大环节，确保了评估的公平性与可复现性。在评估协议上，基准不仅测量平均准确率、平均成本与吞吐量等传统指标，还引入了基于归一化成本与准确率的调和平均数构建的排名分数，使得不同路由配置与成本预算下的比较成为可能。此外，基准通过涵盖多样化的任务类型与模型池，充分模拟了真实部署中面临的“质量-成本-延迟”三重困境，为探索多模态路由信号提供了丰富的实验环境。其模块化架构支持新数据集与模型的便捷集成，保证了基准能够持续演进，与快速发展的视觉-语言模型生态保持同步。

使用方法

使用VL-RouterBench进行路由研究主要遵循其设计的标准化流水线。研究人员首先利用基准提供的质量与成本矩阵，按照7:1:2的比例划分训练集、验证集与测试集。在路由器训练阶段，可以采用特征级路由器或端到端路由器两种范式，并应用可调节的软标签策略，通过超参数λ显式控制准确率与成本之间的权衡。训练完成后，在测试集上评估路由器的平均准确率、平均成本、吞吐量及排名分数。基准支持对多种路由方法（如KNN、MLP、RouterDC等）与基线的系统比较，并可通过绘制准确率-成本帕累托前沿进行全局性能分析。为了促进可复现性，基准提供了完整的工具链，允许研究者轻松引入新的模型与数据源，从而在统一的框架下推动视觉-语言模型路由算法的创新与优化。

背景与挑战

背景概述

随着多模型系统的演进，路由机制已从工程优化技术转变为关键基础设施。在视觉-语言模型（VLM）领域，模型家族日益多样化，其推理成本与能力差异显著，单一模型难以在所有请求类型上同时保障性能与效率。为此，由上海交通大学图像处理与模式识别研究所、香港科技大学（广州）及香港科技大学的研究团队于2025年提出的VL-RouterBench，旨在系统评估VLM路由策略的整体能力。该基准通过构建覆盖14个数据集、总计30,540个样本的质量与成本矩阵，并纳入15个开源模型与2个API模型，形成了519,180个样本-模型对，为多模态路由研究提供了可复现、可比较的统一评估框架，推动了该领域从静态规则配置向数据驱动学习的范式转变。

当前挑战

VL-RouterBench致力于解决VLM路由中的核心挑战：在多样化的多模态任务（如视觉问答、图表OCR）中，如何动态选择最优模型以平衡输出质量与推理成本。构建过程中的主要挑战在于，首先，VLM支持的任务类型高度异构，不同任务对模型能力的要求各异，难以在统一框架内定义“最优”路由决策；其次，多模态融合机制本身仍是开放问题，不同VLM在模态交互与语义表示上存在显著差异，增加了路由器设计与评估的复杂性。此外，基准的构建需处理大规模原始推理日志，并设计能够联合衡量平均准确率、平均成本与吞吐量的评估协议，以确保其在真实部署场景中的实用性与可扩展性。

常用场景

经典使用场景

在视觉-语言模型（VLM）路由系统研究中，VL-RouterBench作为首个系统化、可复现的基准测试框架，其经典使用场景在于评估多模型路由策略在平衡精度与成本方面的综合效能。该基准通过整合来自14个数据集、涵盖通用、STEM及图表OCR三大任务组的30,540个样本，并结合15个开源模型与2个API模型，构建了包含519,180个样本-模型对的质量与成本矩阵。研究者利用这一框架，能够系统比较不同路由架构——如基于特征的轻量级分类器与端到端多模态编码器——在动态模型选择中的表现，从而揭示路由系统在异构模型池中实现高效资源调度的潜力。

实际应用

在实际部署中，VL-RouterBench为构建高性价比的视觉-语言模型服务系统提供了关键支撑。面对模型家族多样化带来的异构计算成本与能力差异，该基准模拟了真实场景中“质量-成本-延迟”的三难困境，使工程团队能够基于大规模离线日志训练轻量级路由器，实现按查询动态分配最优模型。例如，在需要处理图表解析、科学图解或日常视觉问答的混合工作流中，路由系统可自动调度至成本效益最高的模型，显著降低平均推理开销。此外，其模块化设计支持快速集成新兴数据集与模型，助力企业持续优化多模态服务的运营效率与经济性。

衍生相关工作

VL-RouterBench的推出催生了一系列围绕多模态路由架构与训练方法的衍生研究。在路由策略方面，基于该基准的比较分析推动了如RouterDC的双对比学习框架、ZOOTER的奖励引导集成方法以及VLC路由器的多模态编码器设计等创新工作。同时，基准中针对文本与视觉编码器的消融实验激发了针对路由专用嵌入模型（如BGE-M3与SigLIP-L-16组合）的进一步探索。此外，其构建的质量-成本矩阵范式也被扩展至更复杂的多图像输入场景，促进了跨模态路由理论向音频、视频等领域的泛化，形成了统一的多模型路由评估生态系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集