VISUAL-RAG

Name: VISUAL-RAG
Creator: 南洋理工大学, 哈尔滨工业大学（深圳）, 南京理工大学
Published: 2025-02-24 00:23:50
License: 暂无描述

arXiv2025-02-24 更新2025-02-26 收录

下载链接：

https://github.com/LuciusLan/Visual-RAG

下载链接

链接失效反馈

官方服务：

资源简介：

VISUAL-RAG是由南洋理工大学等机构提出的一种针对视觉知识密集型问题的问答基准数据集。该数据集包含400个查询，每个查询都针对一个生物体的特定视觉特征，如颜色、图案、形状等，且答案通常适用于该物种的所有实例。数据集通过人类筛选和重写的方式构建，确保每个问题都对应有一张或多张含有答案线索的图像，并且这些线索图像在图像知识库中占少数。VISUAL-RAG旨在评估多模态大型语言模型在检索增强生成设置下提取视觉知识的能力。

VISUAL-RAG is a visual knowledge-intensive question answering benchmark dataset proposed by Nanyang Technological University and other institutions. It contains 400 queries, each targeting specific visual features of an organism such as color, pattern, shape, etc., and the answers generally apply to all instances of that species. The dataset is constructed through human screening and rewriting, ensuring that each question corresponds to one or more images containing answer clues, and these clue images account for the minority in the image knowledge base. VISUAL-RAG aims to evaluate the capability of multimodal large language models to extract visual knowledge in a retrieval-augmented generation setting.

提供机构：

南洋理工大学, 哈尔滨工业大学（深圳）, 南京理工大学

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

VISUAL-RAG数据集的构建始于LLM生成的候选查询，随后经过人类筛选和重写，以确保问题的难度和有效性。接着，使用开源的MLLM和人类注释者进行进一步的筛选，以确保查询的难度适中。数据集以iNaturalist 2021作为基础，该数据集包含270万张有机体（动物、植物、真菌等）的图像，跨越10000个分类单元。在查询构建过程中，选择那些在文本资源中相对较少提及的物种，并通过限制物种的维基百科摘要和描述长度来筛选。查询生成采用OpenAI-o1模型，该模型基于维基百科的摘要和描述部分生成问题，并确保问题专注于特定物种的视觉特征。随后，人类注释者对问题进行筛选和重写，以确保问题的有效性和难度。最后，使用开源的MLLM对每个查询进行粗略筛选，并使用志愿者大学生对图像进行标注，以确认每个查询至少有一个有效的线索图像，并且线索图像的比例不超过20%。

特点

VISUAL-RAG数据集的特点在于其专注于视觉知识密集型的问题，这些问题通常在文本知识库中难以找到答案。数据集中的实体描述简短，很少在标准参考中记录。查询中的视觉特征精细，只有5.35%的图像包含特定视觉证据。此外，数据集包含大量自然共存的硬负图像，即相同物种的图像，但不展示查询中提到的视觉特征。这些硬负图像使得跨模态检索更具挑战性。数据集目前包含400个查询，形成了一个包含103824张图像的图像知识库。

使用方法

使用VISUAL-RAG数据集时，首先需要进行文本到图像的检索，以获取与查询相关的线索图像。然后，这些图像被整合到RAG系统中，以提取视觉知识作为证据。评估模型时，可以使用归一化折现累积增益（NDCG）和命中率（hit rate）等指标来衡量检索性能。对于生成评估，可以使用GPT-4等通用LLM来评估答案的正确性，同时报告ROUGE分数作为精确匹配分数的宽松版本。在实验设置中，评估了8个主流MLLM，包括5个开源模型和3个专有模型。实验结果表明，图像可以作为增强生成的有力证据，但模型在有效提取和利用视觉知识方面仍然存在困难。

背景与挑战

背景概述

在大型语言模型（LLMs）迅速发展的背景下，研究者们注意到这些模型在验证事实和回答知识密集型问题时存在局限性。为了解决这些问题，检索增强生成（RAG）方法被提出，它通过从外部知识源检索和整合相关文本文档来增强LLMs的能力。随着LLMs处理输入模式的能力扩展到文本以外的模态，如图像，多种多模态RAG基准被提出。然而，这些基准主要使用基于文本的知识库作为增强的主要证据来源。VISUAL-RAG数据集的创建旨在填补这一空白，它是一个新的问答基准，强调视觉知识密集型问题。与依赖文本证据的前人工作不同，VISUAL-RAG需要文本到图像的检索和整合相关线索图像，以提取视觉知识作为证据。该数据集由新加坡南洋理工大学、哈尔滨工业大学（深圳）和南京科技大学的Yin Wu等研究人员于2025年2月提出，并在arXiv上发布。VISUAL-RAG对8个主流多模态LLMs进行了全面评估，包括5个开源模型和3个专有模型，揭示了图像可以作为RAG中的良好证据，但即使是SoTA模型也难以有效地提取和利用视觉知识。

当前挑战

VISUAL-RAG数据集相关的挑战主要包括：1) 所解决的领域问题是视觉知识密集型问答，这要求模型能够从图像中提取视觉知识作为证据，并对知识进行推理；2) 构建过程中遇到的挑战包括跨模态检索的困难，现有的小跨模态检索器（如CLIP）在面对需要识别细粒度视觉特征的困难查询时面临重大挑战。此外，证据的数量也影响着检索增强生成，单一的地面真实线索图像不足以使模型达到最佳性能。同时，非线索图像的存在可以提高性能，因为模型可以通过对比线索和非线索图像来更好地处理问题与图像之间的关系。开源模型和专有模型在处理多图像方面的能力存在差异，开源模型在处理多个图像时表现较弱，而专有模型能够从多个图像中有效地提取知识。

常用场景

经典使用场景

VISUAL-RAG 数据集主要被用于评估大型语言模型（LLMs）在处理视觉知识密集型查询方面的能力。该数据集要求模型能够从文本到图像检索，并整合相关线索图像，以提取视觉知识作为证据。这种场景非常适合于现实世界中的知识密集型问答，其中文本证据稀缺，但可能存在视觉证据。

实际应用

VISUAL-RAG 数据集的实际应用场景包括但不限于生物多样性研究、自然保护、教育和信息检索等领域。例如，在生物多样性研究中，该数据集可以帮助研究人员识别和分类物种，从而更好地了解和保护生物多样性。

衍生相关工作

VISUAL-RAG 数据集的提出激发了更多关于多模态 RAG 系统的研究，特别是那些专注于视觉知识密集型查询的研究。此外，该数据集还为开发更先进的视觉语言模型提供了重要的基准，这些模型能够更好地理解和利用视觉信息。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集