five

VL-RouterBench

收藏
github2026-01-09 更新2026-01-20 收录
下载链接:
https://github.com/K1nght/VL-RouterBench
下载链接
链接失效反馈
官方服务:
资源简介:
VL-RouterBench是第一个为多模态VLM路由量身定制的统一基准测试,包含14个数据集,分为3个任务家族:通用、STEM和图表OCR。数据集包含30,540个样本,519,180个样本-模型推理记录,以及约34.5M总令牌(输入+输出)。

VL-RouterBench is the first unified benchmark specifically tailored for multimodal vision-language model (VLM) routing. It comprises 14 datasets categorized into three task families: General, STEM, and Chart OCR. The benchmark contains 30,540 total samples, 519,180 sample-model inference records, and approximately 34.5 million total tokens (input + output).
创建时间:
2025-12-29
原始信息汇总

VL-RouterBench 数据集概述

数据集简介

VL-RouterBench 是一个专为视觉-语言模型路由设计的基准测试和工具包。它旨在评估在性能和性能-成本双重目标下,在一个视觉-语言模型池中进行路由的效果。

核心特性

  • 首个统一基准:首个专门为多模态VLM路由定制的统一基准。
  • 任务家族:包含14个数据集,分为3个任务家族:通用、STEM、图表OCR。
  • 模型池:包含15个开源模型和2个API模型(GPT-4o和Gemini-Flash-2.5),参数量范围约为1B到78B,以反映真实的质量-成本-延迟权衡空间。
  • 数据规模:包含30,540个样本,519,180条样本-模型推理记录,以及约3450万总令牌数(输入+输出)。数据源自VLM推理/评分记录(VLMEvalKit日志)。
  • 软标签:派生出准确率-成本感知软标签,仅将概率质量分配给正确的模型,从仅考虑准确率到“最便宜的正确模型”平滑插值。
  • 路由器架构:支持两种路由器架构范式:
    • 特征级路由器:冻结的文本+图像编码器 + 轻量级分类器/融合模块。
    • 端到端路由器:微调多模态骨干网络以直接预测路由的模型。
  • 主要评估指标:平均准确率、平均成本、排名分数和吞吐量。

数据集详情

数据集构成

基准测试整理了14个数据集,涵盖三个任务组:

  1. 通用:包括 MMBench, MMStar, MMMU, RealWorldQA, InfoVQA, HallusionBench。
  2. STEM:包括 MathVista, MathVision, MathVerse, AI2D。
  3. 图表与OCR/文档:包括 ChartQA, DocVQA, TextVQA, OCRBench。

模型列表

基准测试包含17个VLM(15个开源 + 2个API模型),参数量跨度约为1B–78B。对于MoE风格模型,使用 m-A-n 表示法,意为 mB总参数量,在推理时激活 nB 参数。令牌价格(每百万令牌美元)与 config/pricing.yaml 中的估计值一致。

模型 参数量 (B) 输入价格 ($/1M tokens) 输出价格 ($/1M tokens)
Janus-Pro-1B 1.0 0.05 0.05
DeepSeek-VL2-Tiny 27.0-A-1.0 0.05 0.05
SmolVLM2 2.2 0.06 0.06
Kimi-VL-A3B-Thinking-2506 16.0-A-2.8 0.20 0.25
Phi-3.5-Vision 4.2 0.10 0.10
DeepSeek-VL2 27.0-A-4.5 0.35 0.50
Janus-Pro-7B 7.0 0.18 0.25
MiMo-VL-7B-RL 7.0 0.20 0.30
LLaVA-Next-Vicuna-7B 7.0 0.20 0.20
Qianfan-VL-8B 8.0 0.18 0.25
Pixtral-12B 12.0 0.25 0.35
Gemma3-27B 27.0 0.35 0.50
Qwen2.5-VL-32B-Instruct 32.0 0.40 0.60
Qwen2.5-VL-72B-Instruct 72.0 0.80 1.20
InternVL2.5-78B 78.0 1.00 1.50
Gemini-Flash-2.5 - 0.30 2.40
GPT-4o - 2.50 10.00

评估指标

采用以准确率成本效率为中心的多维评估协议。

  • 平均准确率:测试集上路由决策的平均正确率。
  • 平均成本:测试集上路由决策的平均推理成本。
  • 排名分数:一个多目标分数,对平均准确率对数归一化成本进行调和平均。
  • 吞吐量:系统效率,以令牌/秒衡量。

主要发现

  1. 路由存在巨大提升空间Oracle与最佳单模型之间的巨大差距表明,路由可以比任何固定的模型选择显著提高成本效益。
  2. 路由器性能强劲,但距离Oracle仍有差距:大多数路由器在准确率-成本权衡上超越了最佳单模型基线;RouterDC在比较的方法中排名最高,但所有方法仍显著低于Oracle,表明有巨大的改进空间。
  3. 更好的表征有助于特征级路由:更高维度的文本/视觉嵌入改善了特征级路由器;BGE-M3 + SigLIP-L-16 配对表现最佳,通过 Normalize-Concat 进行的简单多模态融合产生了最强的整体排名分数
  4. 端到端 vs. 特征级:端到端路由器通常比特征级路由器获得更好的准确率-成本权衡,但由于更重的多模态骨干网络,可能以略低的吞吐量运行。

数据获取

数据集以预打包的存档文件 vlm_router_data.tar.gz 形式提供,包含运行管道所需的一切。可从以下渠道下载:

  • Google Drive:https://drive.google.com/file/d/1Va18MW8nJqvatxDXQDQq0t9NAqr93hMg/view?usp=sharing
  • 百度网盘:https://pan.baidu.com/s/1D_P8YwY_E5kDA5dUB-ovng (提取码: xb1s)
  • Hugging Face:https://huggingface.co/datasets/KinghtH/VL-RouterBench

引用

如果使用VL-RouterBench,请引用: bibtex @misc{huang2025vlrouterbenchbenchmarkvisionlanguagemodel, title={VL-RouterBench: A Benchmark for Vision-Language Model Routing}, author={Zhehao Huang and Baijiong Lin and Jingyuan Zhang and Jingying Wang and Yuhang Liu and Ning Lu and Tao Li and Xiaolin Huang}, year={2025}, eprint={2512.23562}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2512.23562}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉-语言模型(VLM)路由研究领域,数据集的构建质量直接决定了评估的可靠性与泛化能力。VL-RouterBench的构建过程系统而严谨,其核心源于对VLMEvalKit评估框架输出日志的深度转化与整合。研究团队从14个跨领域数据集中收集了30,540个样本,涵盖通用理解、STEM学科以及图表OCR三大任务族,确保了任务多样性与现实应用场景的覆盖。通过对17个不同规模与成本的VLM进行大规模推理,生成了超过51万条样本-模型推理记录,并在此基础上计算了基于准确性与成本的软标签,为路由决策提供了细粒度的监督信号。整个构建流程通过模块化脚本实现,包括基准构建、令牌统计、矩阵生成与数据完整性验证等多个步骤,最终形成了结构清晰、包含质量矩阵、成本矩阵及元数据注册表的标准化基准数据集。
特点
作为首个专为多模态VLM路由设计的统一基准,VL-RouterBench展现出若干鲜明特征。其数据集构成具有高度的系统性与代表性,不仅样本规模庞大,更通过精心划分的三大任务家族,有效诱导了模型在不同任务上的性能差异,为路由算法提供了必要的决策空间。该基准集成了从1B到78B参数的15个开源模型及2个商业API模型,构建了一个真实反映质量、成本与延迟权衡的模型池。尤为突出的是,它引入了基于准确率-成本感知的软标签机制,能够平滑地在纯准确率导向与最低成本正确模型之间进行插值,为成本敏感型路由提供了灵活的优化目标。此外,基准提供了从特征级到端到端的多种路由器架构范式,并配备了包括平均准确率、平均成本、排名分数和吞吐量在内的多维评估指标,全面衡量路由系统的综合效能。
使用方法
为便于研究者高效利用该基准,VL-RouterBench提供了一套完整的工具链与标准化工作流程。用户首先需下载并解压预打包的数据归档文件,随后可通过执行集成脚本或分步运行的方式,完成从原始评估日志到路由基准数据的完整转换。基准支持两类主要的路由器评估:特征级路由器利用预提取的文本与视觉嵌入,结合轻量级分类器进行路由决策;而端到端路由器则直接基于原始提示词与图像资产,对多模态骨干网络进行微调以预测目标模型。研究社区可通过配置YAML文件灵活调整数据集划分、模型池组成及定价策略,以适应不同的实验设定。训练与评估过程均配有详尽的示例脚本,最终产出包括路由决策报告、性能摘要及详细的每样本分析,为算法比较与性能诊断提供了坚实的数据基础。
背景与挑战
背景概述
随着多模态人工智能的快速发展,视觉-语言模型(VLMs)在图像理解、视觉问答等任务上展现出卓越能力,但不同模型在性能、成本与延迟之间存在显著权衡。为系统评估模型路由策略的效能,VL-RouterBench应运而生。该基准由研究团队于2025年创建,作为首个专为多模态VLM路由设计的统一评测框架,旨在解决如何在多样化任务中智能分配查询至最优模型的核心问题。它整合了14个数据集,涵盖通用、STEM以及图表OCR三大任务族,并纳入17个参数量从10亿至780亿不等的开源与API模型,构建了包含超过30,540个样本的大规模推理记录。这一基准的建立,为探索精度-成本感知的模型调度机制提供了关键实验平台,推动了高效多模态系统部署的研究进展。
当前挑战
VL-RouterBench致力于应对视觉-语言模型路由领域的核心挑战:如何在保证任务准确性的前提下,实现模型选择在计算成本与推理效率之间的最优平衡。具体而言,基准构建面临多重困难:其一,需在多样化的任务场景(如通用理解、科学图表解析)中定义统一的评估指标,以公平比较不同路由策略;其二,整合异构的模型输出与成本数据(包括令牌计数与定价模型)涉及复杂的数据清洗与对齐过程;其三,生成既反映模型正确性又纳入成本因素的软标签,要求设计新颖的概率分配机制。此外,基准还需确保不同架构的路由器(如特征级与端到端路由器)能在同一框架下进行可复现的比较,这对实验设计与工程实现提出了较高要求。
常用场景
经典使用场景
在视觉-语言模型(VLM)的多元化应用生态中,模型选择常面临性能与成本间的权衡困境。VL-RouterBench作为首个专为多模态VLM路由设计的统一基准,其经典使用场景在于系统评估不同路由策略在多样化任务上的效能。研究者通过该基准,能够在涵盖通用理解、STEM学科以及图表OCR的14个数据集上,对比特征级路由与端到端路由等范式,从而在准确率、成本及吞吐量等多维指标间寻求最优平衡,为模型调度决策提供实证依据。
解决学术问题
该数据集致力于解决视觉-语言模型部署中的核心学术问题,即如何在异构模型池中实现智能、自适应的模型选择。传统方法往往依赖单一模型或经验规则,难以在动态任务需求与资源约束下保持最优性能。VL-RouterBench通过构建包含30,540个样本的大规模推理记录,并引入基于准确率-成本的软标签机制,为路由算法研究提供了标准化评估框架。其意义在于首次系统化地量化了路由策略的潜在收益,揭示了模型选择中存在的显著优化空间,推动了多模态模型高效调度这一前沿方向的发展。
衍生相关工作
围绕VL-RouterBench基准,已衍生出一系列探索不同路由架构的经典研究工作。特征级路由方面,研究集中于利用冻结的文本与图像编码器(如BGE-M3与DINOv2)结合轻量级分类器进行预测;端到端路由则尝试直接微调多模态骨干网络(如LXMERT)以实现路由决策。具体而言,RouterDC、VLC、ZOOTER等端到端方法在基准测试中展现了优越的准确率-成本权衡能力,而基于KNN、线性模型或MLP的特征级方法则提供了更高吞吐量的替代方案。这些工作共同深化了对多模态路由机制的理解,并为后续算法创新奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作