Long Visual Question Answering (Long-VQA), Long Multimodal Retrieval (Long-MR)

Name: Long Visual Question Answering (Long-VQA), Long Multimodal Retrieval (Long-MR)
Creator: 清华大学, 商汤科技研究, 香港大学, 上海人工智能实验室
Published: 2024-12-13 02:59:46
License: 暂无描述

arXiv2024-12-13 更新2024-12-25 收录

下载链接：

https://github.com/OpenGVLab/V2PE

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了两个增强型长上下文多模态数据集：Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。Long-VQA 数据集扩展了17个广泛使用的数据集，将其内容从短序列扩展到包含多达32K个tokens的长序列，旨在评估视觉语言模型在长序列中的理解和推理能力。Long-MR 数据集则通过插入目标图像或文本段到交错图像和文本的序列中，评估模型从超长多模态序列中检索特定目标的能力。这些数据集的创建旨在增强视觉语言模型在长上下文场景中的训练和评估，解决现有数据集在长上下文理解方面的不足。

This study develops two enhanced long-context multimodal datasets: Long Visual Question Answering (Long-VQA) and Long Multimodal Retrieval (Long-MR). The Long-VQA dataset adapts 17 widely used datasets by extending their content from short sequences to long sequences containing up to 32K tokens, aiming to evaluate the comprehension and reasoning capabilities of vision-language models in long-sequence scenarios. The Long-MR dataset, by inserting target images or text segments into interleaved image-text sequences, assesses models' ability to retrieve specific targets from ultra-long multimodal sequences. These datasets are created to strengthen the training and evaluation of vision-language models in long-context settings, addressing the gaps in long-context understanding of existing datasets.

提供机构：

清华大学, 商汤科技研究, 香港大学, 上海人工智能实验室

创建时间：

2024-12-13

搜集汇总

数据集介绍

构建方式

Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR) 数据集的构建旨在增强视觉语言模型（VLMs）在长上下文多模态任务中的能力。Long-VQA 数据集通过扩展现有的视觉问答数据集（如 DocVQA、GQA 等），将序列长度扩展至 32K 或 256K 个 token，以模拟真实世界中的长上下文场景。Long-MR 数据集则基于 MM-NIAH 基准，通过在长序列中插入目标图像或文本片段，评估模型在超长多模态序列中检索特定目标的能力。数据集的构建过程中，还引入了复杂的多图像任务和多样化的负样本，以提升模型的泛化能力。

特点

Long-VQA 和 Long-MR 数据集的主要特点在于其长上下文和多模态复杂性。Long-VQA 数据集通过将多个单页文档合并为多页集合，或通过将图像、图表等元素组合成复杂的多页文档，评估模型在长上下文中的视觉感知和推理能力。Long-MR 数据集则通过在长序列中插入多个目标，要求模型在复杂的上下文中准确区分相关和不相关信息。这些数据集不仅涵盖了广泛的视觉输入类型，还通过复杂的空间布局和多图像任务，提供了对 VLMs 能力的全面评估。

使用方法

Long-VQA 和 Long-MR 数据集主要用于训练和评估视觉语言模型在长上下文多模态任务中的表现。研究人员可以通过这些数据集对模型进行微调，以增强其在长序列中的理解和推理能力。具体使用时，Long-VQA 数据集可用于训练模型回答涉及长文档、图表和多图像的问题，而 Long-MR 数据集则用于评估模型在超长序列中检索特定目标的能力。通过结合这些数据集，研究人员可以系统地分析 VLMs 在长上下文场景中的性能，并探索改进模型的方法。

背景与挑战

背景概述

Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR) 数据集是由清华大学、香港大学和上海人工智能实验室的研究团队于2024年创建的多模态长上下文数据集。这些数据集旨在增强视觉-语言模型（VLMs）在处理长上下文多模态任务中的能力，特别是在涉及视频、高分辨率图像或长图文文档的场景中。通过扩展现有指令调优数据集的序列长度，研究团队构建了包含32K至256K tokens的训练和验证集，以系统评估VLMs在长上下文场景中的表现。该数据集的核心研究问题是如何有效处理长序列多模态输入，特别是在视觉和文本模态的联合理解与推理任务中。这些数据集的创建为多模态长上下文建模提供了重要的基准，推动了VLMs在复杂场景中的应用。

当前挑战

Long-VQA 和 Long-MR 数据集面临的挑战主要包括两个方面。首先，视觉-语言模型在处理长上下文多模态输入时，性能显著下降，特别是在视觉和文本模态的联合理解任务中。传统的文本位置编码机制直接应用于视觉模态时效果不佳，导致模型在长上下文场景中的表现受限。其次，数据集的构建过程中，如何有效扩展序列长度并保持数据的多样性和复杂性是一个关键挑战。研究团队通过将多个样本的图像和文本交错组合，生成了长序列多模态输入，但这一过程需要精细的设计以避免信息冗余和歧义。此外，如何在有限的上下文窗口内有效管理视觉和文本模态的位置编码，也是构建过程中需要解决的技术难题。

常用场景

经典使用场景

Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR) 数据集主要用于评估和增强视觉-语言模型（VLMs）在处理长上下文多模态任务中的能力。Long-VQA 数据集通过扩展现有的视觉问答数据集，生成长达32K或256K token的序列，要求模型在长上下文中进行复杂的视觉推理和问题回答。Long-MR 数据集则通过在多模态序列中插入目标图像或文本片段，评估模型在超长序列中检索特定信息的能力。

衍生相关工作

基于这些数据集的研究工作，衍生出了多项经典的多模态模型改进方法。例如，InternVL2-2B 模型通过结合V2PE和长上下文数据集进行微调，显著提升了其在长上下文任务中的表现。此外，这些数据集还推动了多模态检索、长视频理解等领域的研究，催生了如LongVA、LongVILA等专注于长上下文多模态处理的新模型。

数据集最近研究