V-QPP-Bench

Name: V-QPP-Bench
Creator: 吉林大学; 密歇根州立大学
Published: 2026-02-14 02:39:48
License: 暂无描述

arXiv2026-02-14 更新2026-02-17 收录

下载链接：

https://github.com/phycholosogy/VQQP_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

V-QPP-Bench是由吉林大学和密歇根州立大学团队构建的首个专注于视觉查询预处理（V-QPP）的多模态检索增强生成基准数据集。该数据集包含46,700条经过严格流程生成的缺陷视觉查询，涵盖几何畸变、质量退化、语义模糊等10类缺陷类型，数据源来自InfoSeek和ViQuAE等权威知识库VQA数据集。通过逆向工程方法对原始图像施加旋转、翻转、噪声等可控合成扰动构建查询-工具-真值三元组，支持图像到文本、图像到图像等5种MRAG检索范式评估，旨在解决现实场景中视觉查询缺陷导致的检索失败问题，推动鲁棒多模态系统的开发。

提供机构：

吉林大学; 密歇根州立大学

创建时间：

2026-02-14

搜集汇总

数据集介绍

构建方式

在构建V-QPP-Bench数据集时，研究团队采用了一种系统化的数据构造流程，旨在全面评估视觉查询预处理在跨模态检索增强生成中的影响。该数据集基于两个成熟的知识型视觉问答基准——InfoSeek和ViQuAE，从中选取了原始查询图像作为基础。通过模拟真实世界中的视觉缺陷，研究团队定义了一个包含10种不完美类型的层次化分类体系，涵盖几何畸变、质量退化以及语义模糊等多个维度。每个原始图像均经过一系列参数化的腐蚀操作，如旋转、翻转、亮度调整、模糊、噪声注入、裁剪、扩展、叠加、水印嵌入以及真实场景嵌入，从而生成了总计46,700个不完美视觉查询。为确保评估的精确性，数据集为每个样本提供了包含不完美查询、最优工具执行轨迹和标准真实图像的三元组，为后续的代理决策任务奠定了坚实基础。

使用方法

使用V-QPP-Bench数据集时，研究人员通常遵循一个标准化的三阶段评估流程。首先，在视觉查询预处理阶段，多模态大语言模型代理接收不完美查询图像及相关问题，根据预设的工具库进行分析，并输出JSON格式的操作序列以执行图像优化。工具库包含几何校正、质量增强和语义细化等八种原子工具，代理需正确选择工具并预测参数。随后，在检索阶段，优化后的图像被输入检索器，根据不同的MRAG范式获取相关的文本或视觉知识。最后，在答案生成阶段，模型基于优化图像、原始问题及检索到的上下文生成最终答案。评估指标涵盖工具选择准确性、参数预测分数、检索召回率以及端到端答案准确率，从而全面衡量代理的预处理能力和系统的整体性能。

背景与挑战

背景概述

随着多模态大语言模型的快速发展，多模态检索增强生成已成为连接模型参数化记忆与外部知识的关键范式。然而，现有系统通常将视觉查询视为静态且无噪声的输入，忽视了现实场景中图像常因几何畸变、质量退化或语义模糊而存在缺陷，导致检索性能严重下降。为系统评估视觉查询预处理的影响，吉林大学与密歇根州立大学的研究团队于2026年推出了V-QPP-Bench基准数据集。该数据集包含46,700个不完美查询，覆盖10类视觉缺陷，并支持五种多模态检索范式，旨在推动智能体化视觉预处理方法的发展，提升多模态检索增强生成系统在真实环境中的鲁棒性。

当前挑战

V-QPP-Bench所针对的核心领域挑战在于解决不完美视觉查询对多模态检索增强生成系统造成的性能退化问题，具体涉及几何畸变、质量退化与语义模糊等多类缺陷导致的检索失败与生成幻觉。在数据集构建过程中，研究团队面临双重挑战：一是需设计系统化的缺陷注入流程，通过逆向工程方法生成涵盖真实世界噪声与合成增强的查询样本，确保缺陷类型的多样性与可控性；二是需建立标准化的智能体评估环境，整合原子化感知工具库，以精确量化多模态大语言模型在工具选择与参数预测方面的能力瓶颈，为后续模型优化提供可靠基准。

常用场景

经典使用场景

在视觉检索增强生成领域，V-QPP-Bench作为首个专注于视觉查询预处理的基准测试，其经典应用场景在于系统评估多模态大语言模型对不完美视觉查询的主动修复能力。该基准通过构建包含几何畸变、质量退化及语义模糊等十类缺陷的46,700个查询样本，模拟真实世界中因拍摄角度偏移、运动模糊或背景干扰导致的图像失真问题。研究者在标准MRAG流程中引入智能体决策环节，要求模型自主诊断缺陷并调用旋转、去噪、裁剪等感知工具进行查询优化，从而精准衡量预处理对检索召回率与端到端生成性能的影响。

解决学术问题

V-QPP-Bench致力于解决多模态检索增强生成系统中长期被忽视的视觉查询鲁棒性难题。传统MRAG研究默认视觉输入为静态完美信号，忽视了现实场景中图像质量参差不齐对系统性能的潜在破坏。该数据集通过量化分析几何扭曲、语义模糊等缺陷导致的检索失败现象，揭示了视觉编码器对分布偏移的脆弱性。其核心学术价值在于将文本RAG中成熟的查询重写机制拓展至视觉领域，提出了智能体化视觉预处理的理论框架，为构建抗干扰的多模态知识检索系统提供了可量化的评估范式和性能基线。

实际应用

在实际部署场景中，V-QPP-Bench所针对的视觉预处理技术可显著提升多模态AI系统的实用性与可靠性。在医疗影像分析领域，该系统能自动校正倾斜拍摄的X光片并检索相似病例；电商视觉搜索场景中，可消除商品图片中的水印干扰并精准匹配目标商品；教育数字化场景下，能修复白板照片的透视变形以提取文本信息。通过将预处理模块嵌入移动端应用或边缘计算设备，用户使用日常拍摄的缺陷图像即可获得与专业图像相媲美的检索精度，大幅降低了高质量视觉数据采集的门槛。

数据集最近研究