five

Long Visual Question Answering (Long-VQA), Long Multimodal Retrieval (Long-MR)

收藏
arXiv2024-12-13 更新2024-12-25 收录
下载链接:
https://github.com/OpenGVLab/V2PE
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建了两个增强型长上下文多模态数据集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。Long-VQA 数据集扩展了17个广泛使用的数据集,将其内容从短序列扩展到包含多达32K个tokens的长序列,旨在评估视觉语言模型在长序列中的理解和推理能力。Long-MR 数据集则通过插入目标图像或文本段到交错图像和文本的序列中,评估模型从超长多模态序列中检索特定目标的能力。这些数据集的创建旨在增强视觉语言模型在长上下文场景中的训练和评估,解决现有数据集在长上下文理解方面的不足。

This study develops two enhanced long-context multimodal datasets: Long Visual Question Answering (Long-VQA) and Long Multimodal Retrieval (Long-MR). The Long-VQA dataset adapts 17 widely used datasets by extending their content from short sequences to long sequences containing up to 32K tokens, aiming to evaluate the comprehension and reasoning capabilities of vision-language models in long-sequence scenarios. The Long-MR dataset, by inserting target images or text segments into interleaved image-text sequences, assesses models' ability to retrieve specific targets from ultra-long multimodal sequences. These datasets are created to strengthen the training and evaluation of vision-language models in long-context settings, addressing the gaps in long-context understanding of existing datasets.
提供机构:
清华大学, 商汤科技研究, 香港大学, 上海人工智能实验室
创建时间:
2024-12-13
搜集汇总
数据集介绍
main_image_url
构建方式
Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR) 数据集的构建旨在增强视觉语言模型(VLMs)在长上下文多模态任务中的能力。Long-VQA 数据集通过扩展现有的视觉问答数据集(如 DocVQA、GQA 等),将序列长度扩展至 32K 或 256K 个 token,以模拟真实世界中的长上下文场景。Long-MR 数据集则基于 MM-NIAH 基准,通过在长序列中插入目标图像或文本片段,评估模型在超长多模态序列中检索特定目标的能力。数据集的构建过程中,还引入了复杂的多图像任务和多样化的负样本,以提升模型的泛化能力。
特点
Long-VQA 和 Long-MR 数据集的主要特点在于其长上下文和多模态复杂性。Long-VQA 数据集通过将多个单页文档合并为多页集合,或通过将图像、图表等元素组合成复杂的多页文档,评估模型在长上下文中的视觉感知和推理能力。Long-MR 数据集则通过在长序列中插入多个目标,要求模型在复杂的上下文中准确区分相关和不相关信息。这些数据集不仅涵盖了广泛的视觉输入类型,还通过复杂的空间布局和多图像任务,提供了对 VLMs 能力的全面评估。
使用方法
Long-VQA 和 Long-MR 数据集主要用于训练和评估视觉语言模型在长上下文多模态任务中的表现。研究人员可以通过这些数据集对模型进行微调,以增强其在长序列中的理解和推理能力。具体使用时,Long-VQA 数据集可用于训练模型回答涉及长文档、图表和多图像的问题,而 Long-MR 数据集则用于评估模型在超长序列中检索特定目标的能力。通过结合这些数据集,研究人员可以系统地分析 VLMs 在长上下文场景中的性能,并探索改进模型的方法。
背景与挑战
背景概述
Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR) 数据集是由清华大学、香港大学和上海人工智能实验室的研究团队于2024年创建的多模态长上下文数据集。这些数据集旨在增强视觉-语言模型(VLMs)在处理长上下文多模态任务中的能力,特别是在涉及视频、高分辨率图像或长图文文档的场景中。通过扩展现有指令调优数据集的序列长度,研究团队构建了包含32K至256K tokens的训练和验证集,以系统评估VLMs在长上下文场景中的表现。该数据集的核心研究问题是如何有效处理长序列多模态输入,特别是在视觉和文本模态的联合理解与推理任务中。这些数据集的创建为多模态长上下文建模提供了重要的基准,推动了VLMs在复杂场景中的应用。
当前挑战
Long-VQA 和 Long-MR 数据集面临的挑战主要包括两个方面。首先,视觉-语言模型在处理长上下文多模态输入时,性能显著下降,特别是在视觉和文本模态的联合理解任务中。传统的文本位置编码机制直接应用于视觉模态时效果不佳,导致模型在长上下文场景中的表现受限。其次,数据集的构建过程中,如何有效扩展序列长度并保持数据的多样性和复杂性是一个关键挑战。研究团队通过将多个样本的图像和文本交错组合,生成了长序列多模态输入,但这一过程需要精细的设计以避免信息冗余和歧义。此外,如何在有限的上下文窗口内有效管理视觉和文本模态的位置编码,也是构建过程中需要解决的技术难题。
常用场景
经典使用场景
Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR) 数据集主要用于评估和增强视觉-语言模型(VLMs)在处理长上下文多模态任务中的能力。Long-VQA 数据集通过扩展现有的视觉问答数据集,生成长达32K或256K token的序列,要求模型在长上下文中进行复杂的视觉推理和问题回答。Long-MR 数据集则通过在多模态序列中插入目标图像或文本片段,评估模型在超长序列中检索特定信息的能力。
衍生相关工作
基于这些数据集的研究工作,衍生出了多项经典的多模态模型改进方法。例如,InternVL2-2B 模型通过结合V2PE和长上下文数据集进行微调,显著提升了其在长上下文任务中的表现。此外,这些数据集还推动了多模态检索、长视频理解等领域的研究,催生了如LongVA、LongVILA等专注于长上下文多模态处理的新模型。
数据集最近研究
最新研究方向
近年来,随着多模态大模型(VLMs)在视觉问答、图像检索等任务中的广泛应用,处理长上下文多模态数据的能力成为研究热点。Long-VQA和Long-MR数据集的提出,旨在解决现有VLMs在处理长视频、高分辨率图像及长文本图像文档时的性能瓶颈。研究表明,直接应用文本位置编码机制到视觉标记上效果不佳,尤其是在超出模型上下文窗口时,性能显著下降。为此,研究者提出了可变视觉位置编码(V2PE),通过为视觉标记引入更小且可变的位置增量,有效提升了模型对长多模态序列的理解和推理能力。实验表明,结合V2PE的开源VLM模型InternVL2在处理长达1M标记的多模态序列时表现出色,展示了其在现实世界长上下文应用中的巨大潜力。这一研究不仅推动了多模态模型在长上下文任务中的性能提升,也为未来多模态大模型的设计提供了新的思路。
相关研究论文
  • 1
    V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding清华大学, 商汤科技研究, 香港大学, 上海人工智能实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作