Response Score Dataset (RSD)

Name: Response Score Dataset (RSD)
Creator: 清华大学,歌尔
Published: 2025-10-31 15:46:44
License: 暂无描述

arXiv2025-10-31 更新2025-11-04 收录

下载链接：

https://anonymous.4open.science/r/ECVL-Router-977D/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

RSD数据集是一个专门为VLM路由训练而构建的多模态响应质量数据集。该数据集包含约22,000个图像-文本实例，每个实例都有8个VLM的响应质量评分和推理时间。数据集的构建过程涉及对8个代表性VLM在7个公共基准上进行大规模自动标注，并使用GPT-4o作为LLM响应评判员对每个模型响应进行评分。该数据集旨在有效地估计模型在不同任务上的响应质量，并支持场景感知的路由策略。数据集被用于训练和评估ECVL-ROUTER框架，以实现不同场景下VLM的优化路由。

The RSD dataset is a multimodal response quality dataset specifically constructed for VLM routing training. This dataset contains approximately 22,000 image-text pairs, with each pair accompanied by response quality scores and inference latency from 8 VLMs. The construction of this dataset involves large-scale automatic annotation of 8 representative VLMs across 7 public benchmarks, and uses GPT-4o as the LLM response judge to score each model's response. This dataset aims to effectively estimate the response quality of models across different tasks and support scene-aware routing strategies. It has been utilized to train and evaluate the ECVL-ROUTER framework, enabling optimal routing of VLMs in various scenarios.

提供机构：

清华大学,歌尔

创建时间：

2025-10-31

搜集汇总

数据集介绍

构建方式

在视觉语言模型路由领域，响应评分数据集（RSD）采用基于最小期望分数（MES）的自动化标注策略构建。研究团队首先选取8个代表性VLMs在7个公共基准测试上生成响应，覆盖从简单识别到复杂推理的多层次任务。随后采用LLM-as-a-Judge方法，以GPT-4o作为评分法官，在统一评分标准下对每个模型响应进行1-10分量化评估，重点关注回答的准确性、相关性和完整性。为确保标注可靠性，通过五名人类专家对200个样本进行独立评分验证，显示自动评分与人工评分具有高度相关性（皮尔逊系数>0.85）。

特点

该数据集包含约22,000个图文实例，每个实例均配备8个不同规模VLMs的响应质量评分和推理时间数据。其核心特征体现在多维度评估体系上，不仅涵盖模型性能的横向比较，还通过任务难度分级机制实现纵向深度分析。数据集呈现典型的右偏分布特征，平均评分5.58分与中位数6.00分形成鲜明对比，反映出模型在不同任务上的性能差异。特别值得注意的是，视觉特征被证明是影响路由决策的主导因素，这为场景感知路由提供了关键数据支撑。

使用方法

该数据集主要服务于视觉语言模型路由器的训练与评估，使用方法遵循系统化流程。在训练阶段，基于MES阈值生成边缘模型能力标签，构建包含查询、图像和路由标签的三元组训练数据。验证阶段通过网格搜索确定最优决策阈值τ，以最大化路由综合评分（RCS）。实际部署时，路由器根据输入查询的复杂性预测边缘模型满足用户需求的概率，当概率超过阈值时路由至边缘设备，否则升级至云端大模型。这种动态路由机制有效平衡了响应质量、计算成本和延迟时间三大核心指标。

背景与挑战

背景概述

响应评分数据集（RSD）由清华大学与歌尔集团于2025年联合构建，旨在解决视觉语言模型在边缘-云协作路由中的关键问题。该数据集围绕场景感知路由框架ECVL-ROUTER展开，核心研究在于通过最小期望分数量化用户对响应质量、延迟与能效的差异化需求，推动多模态模型在实时交互、医疗诊断等领域的自适应部署。其创新性标注范式与大规模自动化评估机制，为边缘智能系统的优化提供了重要数据基础。

当前挑战

该数据集需应对视觉语言路由中多模态语义对齐的复杂性，包括图像与文本特征融合的异构性、用户场景动态适配的精度要求。构建过程中面临自动化标注一致性的挑战，需通过LLM-as-Judge与人工标注的协同验证确保评分可靠性；同时需平衡22k样本的难度分布，覆盖从简单图表解析到专业领域推理的连续能力谱系，以支撑路由器的泛化性训练。

常用场景

经典使用场景

在视觉语言模型路由优化研究中，该数据集作为首个专门用于训练和评估多模态路由器的响应质量基准，通过大规模自动化标注构建了约22k个图像-文本实例。其核心应用场景在于为边缘-云协作框架提供质量评估依据，使得路由器能够基于最小期望分数动态选择最适合的视觉语言模型，在保证响应质量的同时显著提升系统效率。

实际应用

在实际部署中，该数据集支撑的 routing 策略已成功应用于实时交互系统、移动辅助设备及医疗诊断平台。在移动端场景中，通过将80%以上查询路由至边缘小模型，实现了39.1%的延迟降低与显著能耗优化；在医疗领域则通过动态调整质量阈值，确保关键诊断任务获得高精度响应。这种场景自适应特性使其在物联网设备和实时交互系统中展现出巨大应用潜力。

衍生相关工作

基于该数据集衍生的ECVL-ROUTER框架已成为多模态路由领域的标杆工作，其提出的路由综合评分指标被后续研究广泛采纳。该数据集还催生了面向特定领域的路由优化研究，如医疗影像诊断专用路由器和实时游戏交互路由器等分支方向。其构建的自动化标注流程与质量评估标准，为后续TextRouter-VLM、EdgeMultiRouter等工作的数据集构建提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集