VISUAL-RAG|视觉问答数据集|多模态学习数据集

arXiv2025-02-24 更新2025-02-26 收录

视觉问答

多模态学习

下载链接：

https://github.com/LuciusLan/Visual-RAG

下载链接

链接失效反馈

资源简介：

VISUAL-RAG是由南洋理工大学等机构提出的一种针对视觉知识密集型问题的问答基准数据集。该数据集包含400个查询，每个查询都针对一个生物体的特定视觉特征，如颜色、图案、形状等，且答案通常适用于该物种的所有实例。数据集通过人类筛选和重写的方式构建，确保每个问题都对应有一张或多张含有答案线索的图像，并且这些线索图像在图像知识库中占少数。VISUAL-RAG旨在评估多模态大型语言模型在检索增强生成设置下提取视觉知识的能力。

提供机构：

南洋理工大学, 哈尔滨工业大学（深圳）, 南京理工大学

创建时间：

2025-02-24

AI搜集汇总

数据集介绍

构建方式

VISUAL-RAG数据集的构建始于LLM生成的候选查询，随后经过人类筛选和重写，以确保问题的难度和有效性。接着，使用开源的MLLM和人类注释者进行进一步的筛选，以确保查询的难度适中。数据集以iNaturalist 2021作为基础，该数据集包含270万张有机体（动物、植物、真菌等）的图像，跨越10000个分类单元。在查询构建过程中，选择那些在文本资源中相对较少提及的物种，并通过限制物种的维基百科摘要和描述长度来筛选。查询生成采用OpenAI-o1模型，该模型基于维基百科的摘要和描述部分生成问题，并确保问题专注于特定物种的视觉特征。随后，人类注释者对问题进行筛选和重写，以确保问题的有效性和难度。最后，使用开源的MLLM对每个查询进行粗略筛选，并使用志愿者大学生对图像进行标注，以确认每个查询至少有一个有效的线索图像，并且线索图像的比例不超过20%。

特点

VISUAL-RAG数据集的特点在于其专注于视觉知识密集型的问题，这些问题通常在文本知识库中难以找到答案。数据集中的实体描述简短，很少在标准参考中记录。查询中的视觉特征精细，只有5.35%的图像包含特定视觉证据。此外，数据集包含大量自然共存的硬负图像，即相同物种的图像，但不展示查询中提到的视觉特征。这些硬负图像使得跨模态检索更具挑战性。数据集目前包含400个查询，形成了一个包含103824张图像的图像知识库。

使用方法

使用VISUAL-RAG数据集时，首先需要进行文本到图像的检索，以获取与查询相关的线索图像。然后，这些图像被整合到RAG系统中，以提取视觉知识作为证据。评估模型时，可以使用归一化折现累积增益（NDCG）和命中率（hit rate）等指标来衡量检索性能。对于生成评估，可以使用GPT-4等通用LLM来评估答案的正确性，同时报告ROUGE分数作为精确匹配分数的宽松版本。在实验设置中，评估了8个主流MLLM，包括5个开源模型和3个专有模型。实验结果表明，图像可以作为增强生成的有力证据，但模型在有效提取和利用视觉知识方面仍然存在困难。

背景与挑战

背景概述

在大型语言模型（LLMs）迅速发展的背景下，研究者们注意到这些模型在验证事实和回答知识密集型问题时存在局限性。为了解决这些问题，检索增强生成（RAG）方法被提出，它通过从外部知识源检索和整合相关文本文档来增强LLMs的能力。随着LLMs处理输入模式的能力扩展到文本以外的模态，如图像，多种多模态RAG基准被提出。然而，这些基准主要使用基于文本的知识库作为增强的主要证据来源。VISUAL-RAG数据集的创建旨在填补这一空白，它是一个新的问答基准，强调视觉知识密集型问题。与依赖文本证据的前人工作不同，VISUAL-RAG需要文本到图像的检索和整合相关线索图像，以提取视觉知识作为证据。该数据集由新加坡南洋理工大学、哈尔滨工业大学（深圳）和南京科技大学的Yin Wu等研究人员于2025年2月提出，并在arXiv上发布。VISUAL-RAG对8个主流多模态LLMs进行了全面评估，包括5个开源模型和3个专有模型，揭示了图像可以作为RAG中的良好证据，但即使是SoTA模型也难以有效地提取和利用视觉知识。

当前挑战

VISUAL-RAG数据集相关的挑战主要包括：1) 所解决的领域问题是视觉知识密集型问答，这要求模型能够从图像中提取视觉知识作为证据，并对知识进行推理；2) 构建过程中遇到的挑战包括跨模态检索的困难，现有的小跨模态检索器（如CLIP）在面对需要识别细粒度视觉特征的困难查询时面临重大挑战。此外，证据的数量也影响着检索增强生成，单一的地面真实线索图像不足以使模型达到最佳性能。同时，非线索图像的存在可以提高性能，因为模型可以通过对比线索和非线索图像来更好地处理问题与图像之间的关系。开源模型和专有模型在处理多图像方面的能力存在差异，开源模型在处理多个图像时表现较弱，而专有模型能够从多个图像中有效地提取知识。

常用场景

经典使用场景

VISUAL-RAG 数据集主要被用于评估大型语言模型（LLMs）在处理视觉知识密集型查询方面的能力。该数据集要求模型能够从文本到图像检索，并整合相关线索图像，以提取视觉知识作为证据。这种场景非常适合于现实世界中的知识密集型问答，其中文本证据稀缺，但可能存在视觉证据。

实际应用

VISUAL-RAG 数据集的实际应用场景包括但不限于生物多样性研究、自然保护、教育和信息检索等领域。例如，在生物多样性研究中，该数据集可以帮助研究人员识别和分类物种，从而更好地了解和保护生物多样性。

衍生相关工作

VISUAL-RAG 数据集的提出激发了更多关于多模态 RAG 系统的研究，特别是那些专注于视觉知识密集型查询的研究。此外，该数据集还为开发更先进的视觉语言模型提供了重要的基准，这些模型能够更好地理解和利用视觉信息。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

olympics.csv

该数据集包含不同国家参加奥运会的奖牌榜，数据来源于维基百科的历届奥运会奖牌榜。

github 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录

google/speech_commands

SpeechCommands数据集包含一秒钟的.wav音频文件，每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令，并由不同的说话者录制。数据集有两个版本，v0.01和v0.02，分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测，即通过分类将话语分类为预定义的单词集。数据集的语言为英语，数据集的创建目的是为了帮助训练简单的机器学习模型。

hugging_face 收录