Distortion-VisRAG
收藏arXiv2026-02-25 更新2026-02-27 收录
下载链接:
https://robustvisrag.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
Distortion-VisRAG是由台湾大学和微软联合构建的大规模多模态基准数据集,旨在评估视觉检索增强生成(VisRAG)模型在图像退化条件下的鲁棒性。该数据集包含36.7万条跨七类文档领域(如科学论文、图表、表单等)的问答对,涵盖12种合成退化类型和5种真实退化类型,通过模拟模糊、噪声、低光照等实际场景中的视觉退化现象。数据通过合成算法和真实环境采集相结合的方式构建,为视觉-语言模型的退化鲁棒性研究提供了标准化测试平台,主要应用于文档理解、多模态检索和生成任务的性能评估。
Distortion-VisRAG is a large-scale multimodal benchmark dataset jointly constructed by National Taiwan University and Microsoft, aiming to evaluate the robustness of visual retrieval-augmented generation (VisRAG) models under image degradation conditions. This dataset contains 367,000 question-answer pairs spanning seven document domains (e.g., scientific papers, charts, forms, etc.), covering 12 synthetic degradation types and 5 real-world degradation types that simulate visual degradation phenomena in practical scenarios such as blurring, noise, low-light conditions. The dataset is built via a hybrid approach combining synthetic algorithm generation and real-world data collection, providing a standardized testbed for research on the degradation robustness of vision-language models, and is primarily used for performance evaluation of document understanding, multimodal retrieval and generation tasks.
提供机构:
台湾大学; 微软
创建时间:
2026-02-25
搜集汇总
数据集介绍
构建方式
在视觉检索增强生成领域,现有模型常因图像质量退化而性能下降。为系统评估模型在真实退化条件下的鲁棒性,Distortion-VisRAG数据集应运而生。该数据集基于VisRAG基准扩展构建,涵盖科学论文、图表、幻灯片等七个文档理解领域,共计36.7万组问题-文档对。其构建采用双轨策略:合成退化子集通过标准化流程生成十二种常见退化类型,每种设置五个严重等级;真实退化子集则通过受控拍摄条件获取,包含模糊、低光照、阴影等五种自然退化类型,有效弥合了模拟与真实场景间的差距。
特点
该数据集的核心特征在于其多维度的退化覆盖与领域多样性。它不仅系统整合了合成与真实两类退化场景,更在退化类型上实现了广度与深度的平衡,涵盖从像素级噪声到光照变化的十七种退化模式。数据集的领域跨度广泛,覆盖学术文献、商业图表、手写笔记等多种文档形态,确保了评估场景的全面性。特别值得注意的是,其实证退化子集通过物理拍摄获取,保留了自然退化中复杂的交互效应,为模型在真实环境中的泛化能力提供了严谨的测试基准。
使用方法
在视觉语言模型鲁棒性研究中,Distortion-VisRAG数据集可作为核心评估工具。研究者可将其用于端到端检索生成系统的性能评测,通过对比模型在清洁数据、合成退化与真实退化三个子集上的表现,系统分析退化因素对多模态理解的影响机制。数据集支持分阶段评估:检索阶段可采用平均倒数排名等指标衡量文档匹配精度;生成阶段则可评估答案生成的准确性与语义一致性。该基准亦适用于消融研究,通过控制退化类型与严重程度,探究不同模型架构对特定退化模式的敏感度与适应能力。
背景与挑战
背景概述
Distortion-VisRAG数据集由国立台湾大学与微软的研究团队于2025年构建,旨在解决视觉检索增强生成模型在现实世界视觉退化条件下的鲁棒性问题。随着视觉语言模型在文档理解任务中的广泛应用,现有VisRAG系统在面临模糊、噪声、低光照等图像退化时,语义信息与退化因子在预训练编码器中相互纠缠,导致检索与生成性能显著下降。该数据集作为首个专门针对退化视觉条件的多模态RAG评估基准,通过整合七个文档理解领域的36.7万对问答数据,并涵盖12种合成退化与5种真实退化类型,为推进视觉文档理解的鲁棒性研究提供了关键基础设施。
当前挑战
该数据集致力于解决视觉检索增强生成领域在退化图像条件下的核心挑战:如何使模型在语义信息与视觉退化因子高度耦合的复杂场景中,保持稳定的跨模态检索与生成能力。构建过程中的主要挑战体现在两方面:一是需要创建既覆盖广泛退化类型又保持语义真实性的退化文档图像,为此研究团队设计了包含合成与真实场景的双重数据生成管道;二是需确保评估基准的严谨性与泛化性,通过控制退化严重程度与保持原始问答对不变,在引入视觉变异的同时维持任务语义的一致性,从而准确衡量模型在退化条件下的性能衰减与恢复能力。
常用场景
经典使用场景
在视觉文档理解领域,Distortion-VisRAG数据集主要被用于评估和提升视觉检索增强生成模型在图像退化条件下的鲁棒性。该数据集通过模拟真实世界中常见的图像退化类型,如模糊、噪声、低光照和阴影等,为研究者提供了一个系统性的基准测试平台。经典使用场景包括在退化视觉输入下,测试模型能否稳定地检索相关文档并生成准确的答案,从而验证模型对视觉退化的适应能力。
解决学术问题
Distortion-VisRAG数据集致力于解决视觉检索增强生成模型中因图像退化导致的性能下降问题。传统VisRAG模型在退化图像上容易出现语义与退化因子纠缠,进而引发检索错误和生成幻觉。该数据集通过提供大规模合成与真实退化样本,帮助研究者开发能够明确分离语义与退化信息的因果引导框架,从而提升模型在挑战性视觉条件下的稳定性和泛化能力,推动了多模态鲁棒性研究的发展。
衍生相关工作
围绕Distortion-VisRAG数据集,衍生出了一系列专注于视觉退化鲁棒性的研究工作。其中最具代表性的是RobustVisRAG框架,它采用因果引导的双路径编码器,通过非因果失真建模和因果语义对齐目标,实现了语义与退化因子的有效分离。此外,该数据集也促进了对抗性微调策略、两阶段增强管道等方法的比较与优化,为多模态检索与生成模型的鲁棒性评估设立了新的标准。
以上内容由遇见数据集搜集并总结生成



