five

VRD-UQA

收藏
arXiv2025-11-15 更新2025-11-19 收录
下载链接:
https://github.com/DavideNapolitano/VRD-UQA
下载链接
链接失效反馈
官方服务:
资源简介:
VRD-UQA是由都灵理工大学研究团队构建的视觉富文档不可回答问题评估基准,旨在系统测试视觉大语言模型对不可回答问题的识别能力。该数据集通过对现有多页视觉问答数据集进行实体替换、文档元素置换和布局位置调整等可控扰动生成不可回答问题,涵盖数值、时间、位置和结构等多种实体类型。数据集构建过程采用VLLM-as-a-judge方法验证问题的不可回答性,并通过模块化流水线实现数据增强和自动评估。该数据集主要应用于文档视觉问答系统的鲁棒性测试,旨在解决模型对语义合理但无法回答问题的识别难题,推动视觉文档理解系统向更可靠的方向发展。
提供机构:
都灵理工大学
创建时间:
2025-11-15
原始信息汇总

VRD-UQA 数据集概述

数据集简介

VRD-UQA(Visually Rich Document Unanswerable Question Answering)是一个用于评估视觉大语言模型对不可回答问题鲁棒性的基准数据集。该数据集通过自动修改现有视觉问答数据集的问题,生成看似合理但无法回答的问题,并采用VLLM作为评判者来验证问题的不可回答性。

数据集构成

数据集基于两个现有数据集构建:

MPDocVQA

  • 完整数据集:https://rrc.cvc.uab.es/?ch=17&com=downloads
  • 精简版本:https://drive.google.com/drive/folders/1-SZzvuMJarRDi4rTz6svkVP8MsWTCejO?usp=drive_link
  • 损坏问题:https://drive.google.com/drive/folders/1bMjgHAiBJTwDAZu589abNCaMTWKIOXtq?usp=drive_link
  • 验证版本:https://drive.google.com/drive/folders/1fcwycWWO2D9hRjrididVcSXoy6GyPac6?usp=drive_link

DUDE

  • 完整数据集:https://rrc.cvc.uab.es/?ch=23&com=downloads
  • 精简版本:https://drive.google.com/drive/folders/1URFqchC37AoGMkl0HQP22oAeqM-lV2ns?usp=drive_link
  • 损坏问题:https://drive.google.com/drive/folders/11Yd9l1J-f0FB-E8S5ZTPrSse3Vjie_wl?usp=drive_link
  • 验证版本:https://drive.google.com/drive/folders/12ltYWllJAoEIkJlbZegnWrrYSul9K6Oy?usp=drive_link

数据集特性

  • 精简版本包含:原始数据集的子问题集、OCR和布局分析结果、增强后的数据集
  • 损坏问题:通过替换原始自然语言实体生成的不可回答问题
  • 验证版本:经过评判模型验证的损坏问题

完整数据集下载

  • MPDocVQA完整包:https://drive.google.com/file/d/1Qn4zG_nCnx0sebhTBHKHpFH41-OEsex2/view?usp=drive_link
  • DUDE完整包:https://drive.google.com/file/d/1JNIB-a1vvXjWDaDedX8JsdioOVAs1_03/view?usp=drive_link

评估维度

  1. VLLMs在页面和文档级别检测不可回答问题的准确性
  2. 不同类型损坏(NLP实体、文档元素、布局)的影响
  3. 基于上下文学习的知识注入策略效果

许可证

本项目采用CC BY-NC 4.0许可证

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉富文档分析领域,VRD-UQA数据集通过系统化改造现有多页视觉问答数据集构建而成。其核心方法采用三重扰动策略:首先利用GliNER模型识别原始问题中的自然语言实体,随后将实体替换为同类型但来自不同文档元素或布局位置的干扰项,最后通过Qwen模型进行语法重构以保持问题表面合理性。整个流程包含增强、扰动、验证和评估四个模块化阶段,其中验证环节采用VLLM-as-a-judge机制确保生成问题的不可回答性。
特点
该数据集具备多维评估特性,其扰动机制覆盖自然语言实体、文档元素和空间布局三个维度,可生成复杂度递增的不可回答问题。数据集包含593个经过严格验证的问题实例,涵盖文本段落、表格、图表等多元文档元素,并支持页面级和文档级双重评估指标。特别设计的三级复杂度体系能有效检验模型对语义相近干扰项的辨别能力,其多页面文档结构更贴近真实应用场景。
使用方法
使用该数据集时需采用零样本评估框架,通过调整提示工程策略考察模型性能。关键参数包括页面窗口大小(1-3页)、OCR文本注入选项以及明确提示不可回答可能性的设置。评估流程首先加载经过验证的扰动问题,然后配置不同提示模板组合,最后通过文档级准确率和页面级准确率两个指标量化模型表现。建议结合提供的增强信息(如OCR文本和元素描述)进行多维度测试,以全面评估模型在复杂文档环境中的鲁棒性。
背景与挑战
背景概述
VRD-UQA数据集由意大利都灵理工大学的研究团队于2025年创建,旨在评估视觉大语言模型在视觉丰富文档上处理不可回答问题时的鲁棒性。该数据集聚焦于多页视觉丰富文档的视觉问答任务,通过系统性地引入语义相关但无法回答的问题,探索模型在实体替换、文档元素和布局扰动等复杂场景下的表现。其创新性在于构建了一个自动化评估框架,能够动态生成并验证不可回答问题,为文档理解领域提供了重要的基准测试工具,推动了视觉语言模型在真实应用场景中的可靠性研究。
当前挑战
该数据集主要应对视觉问答模型在不可回答问题检测方面的核心挑战,包括模型易受语义相关实体替换的干扰、难以区分文档结构与布局的细微差异,以及长文档上下文中信息定位的复杂性。在构建过程中,面临生成语义合理但不可回答问题的技术难题,需通过多模态实体提取和布局分析确保问题的真实性与多样性;同时,验证流程需克服模型幻觉和评估循环性问题,采用VLLM-as-a-judge与人工审核相结合的方式保证数据质量。
常用场景
经典使用场景
在视觉富文档理解研究领域,VRD-UQA数据集通过系统化生成不可回答问题,为评估视觉大语言模型的鲁棒性提供了标准化测试平台。该数据集通过替换原始问题中的命名实体、文档元素和布局信息,构建语义合理但无法基于文档内容回答的问题变体,有效模拟了现实场景中因概念混淆或记忆偏差导致的查询错误。
实际应用
在金融报告解析、医疗文档检索等实际应用场景中,VRD-UQA的评估机制可有效验证智能系统的容错能力。其构建的不可回答问题库能够辅助优化企业级文档处理流程,降低因模型误判导致的业务风险,为法律合规审查、学术文献分析等需要高精度理解的垂直领域提供质量保障基准。
衍生相关工作
基于VRD-UQA的评估范式,研究者开发了面向长文档理解的MMLongBench-Doc基准和专注于可信度评估的TUBench框架。这些衍生工作进一步扩展了不可回答问题检测的维度,推动了多模态模型在文档元素关联性分析、跨页面推理等细粒度任务上的性能优化,形成了文档智能评估的系列方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作