MultiModal Needle-in-a-haystack (MMNeedle)
收藏arXiv2024-06-17 更新2024-06-19 收录
下载链接:
https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack
下载链接
链接失效反馈官方服务:
资源简介:
MMNeedle数据集由罗格斯大学创建,旨在评估多模态大型语言模型(MLLMs)在长上下文理解能力方面的表现。该数据集包含40,000张图像、560,000个标题和280,000对针与干草堆的配对,通过图像拼接技术扩展输入上下文长度,以测试模型在复杂视觉上下文中定位目标子图像的能力。数据集构建过程中,采用了自动化的正负样本生成方法,确保了数据的多样性和平衡性。MMNeedle数据集的应用领域广泛,主要用于解决MLLMs在处理长上下文混合模态输入时的性能评估问题,有助于推动相关技术的发展和应用。
The MMNeedle dataset, created by Rutgers University, is designed to evaluate the performance of multimodal large language models (MLLMs) in long-context understanding tasks. This dataset consists of 40,000 images, 560,000 captions, and 280,000 needle-in-haystack pairs. It extends the input context length via image stitching technology, aiming to test the model's ability to locate target sub-images within complex visual contexts. During the dataset construction process, automated positive and negative sample generation methods were adopted to ensure data diversity and balance. The MMNeedle dataset has a wide range of application scenarios, primarily used for performance assessment of MLLMs when processing long-context mixed-modal inputs, and it helps advance the development and application of related technologies.
提供机构:
罗格斯大学
创建时间:
2024-06-17
搜集汇总
数据集介绍

构建方式
MMNeedle数据集的构建采用了创新的图像拼接技术,通过将MS COCO 2014验证集中的图像分割为N×N子图像并重新组合,生成长上下文视觉输入。研究团队设计了自动化采样流程,包括单图像与多图像干草堆构建、正负样本平衡生成(各280,000对),以及基于文本指令的目标子图像定位任务。特别采用分辨率256×256像素的标准化处理,确保视觉质量与模型处理能力的平衡,最终形成包含40,000张原始图像和560,000条标注的数据体系。
特点
该数据集的核心特征体现在三个方面:多维度评估体系设计,通过调节图像数量(M=1/10)和拼接粒度(N∈{1,2,4,8})构建七种上下文长度组合;细粒度评估指标创新,设立存在准确率、索引准确率和精确准确率三级度量标准;以及负样本系统性构建,专门检验多模态大语言模型的幻觉问题。数据多样性突出表现为同时支持单针检索(K=1)与多针检索(K=2/5)任务,覆盖API模型与开源模型的全面性能比对。
使用方法
使用MMNeedle需遵循标准化评估协议:输入由拼接图像序列与文本指令组成,模型需输出目标子图像的'索引,行,列'三元组。评估时采用自动化脚本解析响应,通过三级准确率指标量化性能。对于多针检索任务,要求模型以分号分隔多个定位结果。研究建议优先测试M=10/N=4的挑战性场景,并重点关注GPT-4o等先进模型在长上下文下的性能衰减现象,同时对比分析开源模型在子图像定位任务中的格式遵循能力。
背景与挑战
背景概述
MultiModal Needle-in-a-haystack (MMNeedle) 是由Rutgers University、Microsoft Research等机构的研究团队于2024年提出的多模态大语言模型(MLLMs)长文本能力评估基准。该数据集旨在解决当前MLLMs评估中长文本理解能力不足的问题,通过构建包含40,000张图像、560,000个标题和280,000个针-草堆对的综合数据集,评估模型在复杂多模态环境下的信息检索能力。MMNeedle采用图像拼接技术扩展输入文本长度,设计了从粗到细的三级评估指标(存在准确率、索引准确率和精确准确率),为MLLMs的长文本能力评估提供了标准化测试框架。该数据集对推动多模态模型在医疗影像分析、自动驾驶等需要处理长序列多模态输入的应用场景具有重要意义。
当前挑战
MMNeedle数据集主要面临两大挑战:领域问题方面,该数据集针对多模态大语言模型在长文本场景下的子图像检索能力进行评估,需要模型同时处理视觉和文本信息,并在扩展的上下文长度中准确定位目标,这对现有模型的跨模态理解和长序列处理能力提出了极高要求。构建过程方面,研究团队需要解决大规模多模态数据标注的难题,特别是设计自动化标签生成协议来实现子图像级别的精确标注;同时还需平衡不同拼接尺寸(N×N)和图像数量(M)的组合,确保评估设置的多样性和统计显著性。此外,处理高分辨率拼接图像(最高2048×2048像素)时的计算资源优化和API模型调用限制也是重要的工程挑战。
常用场景
经典使用场景
在多媒体信息检索领域,MMNeedle数据集通过设计复杂的多图像拼接场景,为评估多模态大语言模型(MLLMs)的长上下文理解能力提供了标准化测试平台。其核心任务要求模型在由数十张拼接图像构成的视觉上下文中,精确定位与文本描述匹配的目标子图像(needle),模拟了现实场景中从海量视觉数据中检索关键信息的挑战。这种评估范式尤其适用于检验模型对跨模态语义关联的深层理解能力,以及在高噪声环境下保持稳定性能的鲁棒性。
解决学术问题
该数据集有效解决了多模态研究中长期存在的三大关键问题:一是填补了现有基准在长上下文评估方面的空白,通过图像拼接技术将输入上下文长度扩展至640个子图像;二是设计了粗粒度(存在性判断)到细粒度(精确坐标定位)的多层次评估指标,系统性量化模型性能;三是首次揭示了主流MLLMs在负样本中普遍存在的幻觉问题,如GPT-4o在负样本测试中准确率骤降的现象,为模型可靠性研究提供了重要实证依据。这些突破性发现推动了多模态模型评估方法论的发展。
衍生相关工作
该数据集已催生多个重要研究方向:基于其构建的层次化评估指标,后续研究提出了动态上下文压缩算法以提升模型长文本处理效率;针对发现的幻觉问题,学术界相继开发了注意力机制改良方案如Locality-Aware Transformer;其多针检索任务启发了CrossModal-Memory Network等新型架构设计。此外,数据集采用的自动化标注协议为后续VLMbench等基准的构建提供了技术范本,推动了多模态评估工具的标准化进程。
以上内容由遇见数据集搜集并总结生成



