FVQA

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/FVQA

下载链接

链接失效反馈

官方服务：

资源简介：

FactualVQA（FVQA）是一个用于搜索增强训练和评估的多模态视觉问答数据集。它强调需要外部信息来回答的知识密集型问题。每个条目包括一个图像、一个问题和答案（可选伴随候选答案），使模型能够开发和优化按需搜索策略。数据集的构建细节在[博客](https://www.lmms-lab.com/posts/mmsearch_r1/)或[论文](https://arxiv.org/abs/2506.20670)中提供。

创建时间：

2025-07-30

原始信息汇总

Factual Visual Question Answering (FVQA) 数据集概述

数据集简介

名称: Factual Visual Question Answering (FVQA)
用途: 用于支持搜索增强训练和评估的多模态视觉问答数据集
特点: 强调需要外部知识支持的问题，超越图像本身的信息
内容: 每个条目包含图像、问题和答案（可选附带候选答案）

数据集结构

数据字段

data_id: 唯一数据标识符
prompt: 用户问题
images: 以字节存储的原始图像数据
reward_model: 用于奖励计算的真实答案和候选答案
data_source: 指定veRL中使用的奖励函数
image_urls: 图像搜索工具的潜在使用字段
category: 搜索需求和免搜索标注

训练/测试划分

训练集: 约5k样本（68%需搜索，32%免搜索）
测试集: 约1.8k样本

数据来源

图像来源: Google Image Search，InfoSeek训练子集
问答来源: GPT4o生成（训练集），人工标注（测试集），InfoSeek训练子集

附加资源

缓存图像搜索结果: 包含相关网页标题和缩略图URL，按data_id索引
- fvqa_train_image_search_results_cache.pkl
- fvqa_test_image_search_results_cache.pkl

引用信息

bibtex @article{wu2025mmsearch, title={MMSearch-R1: Incentivizing LMMs to Search}, author={Wu, Jinming and Deng, Zihao and Li, Wei and Liu, Yiding and You, Bo and Li, Bo and Ma, Zejun and Liu, Ziwei}, journal={arXiv preprint arXiv:2506.20670}, year={2025} }

许可证

Apache-2.0

搜集汇总

数据集介绍

构建方式

FVQA数据集构建过程融合了多源数据采集与智能生成技术，图像素材主要源自Google图像搜索及InfoSeek训练子集，确保视觉内容的多样性与真实性。问题-答案对通过GPT4o生成并结合人工标注（测试集部分），采用严格的筛选机制保证知识密集型问题的质量。数据以Parquet格式存储，涵盖唯一标识符、原始图像字节流、提示问题及奖励模型标注等多维度字段，支撑检索增强型多模态学习任务的复杂需求。

特点

该数据集显著区别于传统视觉问答资源，其核心特征在于强调外部知识检索的必要性，约68%的训练样本需借助搜索机制才能解答。测试集包含1800个样本，均经过人工标注验证，具备高可靠性。数据字段设计包含图像URL元数据及搜索分类标签，支持动态检索工具集成。此外，预缓存的图像搜索结果（含网页标题与缩略图）以序列化形式存储，为模型提供即时的多模态上下文增强。

使用方法

研究者可借助数据集内置的奖励模型字段训练检索增强型视觉语言模型，通过解析images字节流与prompt问题构建多模态输入。测试阶段需加载预缓存的搜索结果文件（需安装PIL库），模拟真实搜索环境以评估模型知识整合能力。数据源标识字段（data_source）指导差异化奖励函数应用，而category标签支持搜索依赖型与独立型问题的性能对比分析。

背景与挑战

背景概述

视觉问答领域在多媒体理解中占据重要地位，FactualVQA（FVQA）数据集由香港中文大学等机构的研究团队于2025年创建，旨在解决传统视觉问答模型对隐含知识推理的局限性。该数据集聚焦于需要外部知识支持的事实型问答，通过融合图像内容与跨模态检索能力，推动模型实现基于搜索增强的推理机制。其创新性在于构建了知识密集型的评估框架，为多模态大模型在真实场景中的认知能力设定了新的基准，对推动视觉-语言理解技术的发展具有显著影响力。

当前挑战

FVQA数据集核心挑战在于解决知识密集型视觉问答中模型对隐式外部信息的依赖问题，要求系统不仅能解析图像内容，还需实时检索并整合相关知识。构建过程中的挑战包括多源数据的协调与对齐，如整合来自Google图像搜索和InfoSeek数据集的异构视觉素材，以及确保GPT4o生成与人工标注问题间的一致性与质量。此外，处理搜索缓存结果中的混合数据格式（如文本与PIL图像对象）对数据预处理管道提出了额外的工程技术要求。

常用场景

经典使用场景

在视觉-语言多模态研究领域，FVQA数据集通过构建图像-问题-答案三元组，为模型提供了知识增强的推理平台。其经典应用场景集中于训练和评估需要外部知识检索的视觉问答系统，模型必须结合图像内容与外部知识库进行联合推理，从而准确回答涉及事实性知识的复杂问题。这种设置显著提升了模型在开放域视觉理解任务中的认知深度。

解决学术问题

FVQA有效解决了传统视觉问答模型对隐含知识建模不足的学术难题。该数据集通过标注搜索需求类别，推动研究者开发新型检索增强生成架构，突破了纯视觉-语言模型的知识边界。其构建方法论为多模态系统的可解释性研究提供了重要数据支撑，促进了知识感知型人工智能理论框架的发展与验证。

衍生相关工作

FVQA催生了多个标志性的检索增强多模态研究，包括MMSearch-R1框架的提出与发展。相关研究聚焦于构建动态知识检索机制与视觉推理模块的协同架构，衍生出基于强化学习的搜索策略优化方法。这些工作共同推动了多模态大模型在知识密集型任务中的范式革新，为后续知识增强型视觉语言模型的研究奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集