MMLONGBENCH
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://github.com/EdinburghNLP/MMLongBench
下载链接
链接失效反馈官方服务:
资源简介:
MMLONGBENCH 是一个全面的基准测试,旨在有效地评估长上下文视觉语言模型(LCVLMs)。该数据集包含 13,331 个示例,涵盖了五种不同类别的下游任务,如视觉 RAG 和 Many-Shot ICL。MMLONGBENCH 提供了对各种图像类型的广泛覆盖,包括各种自然和合成图像。为了评估模型对不同输入长度的鲁棒性,所有示例都通过跨模态分词方案以五个标准化的输入长度(8K-128K Tokens)提供。通过全面测试 46 个闭源和开源 LCVLMs,我们提供了对当前模型视觉语言长上下文能力的全面分析。
MMLONGBENCH is a comprehensive benchmark designed to efficiently evaluate Long Context Vision-Language Models (LCVLMs). This dataset comprises 13,331 examples covering five distinct categories of downstream tasks, such as Visual RAG and Many-Shot ICL. MMLONGBENCH provides extensive coverage of diverse image types, including various natural and synthetic images. To evaluate the robustness of models against varying input lengths, all examples are provided with five standardized input lengths (8K-128K Tokens) via a cross-modal tokenization scheme. By comprehensively testing 46 closed-source and open-source LCVLMs, we provide a thorough analysis of the long-context vision-language capabilities of contemporary models.
提供机构:
香港科技大学计算机科学与工程系 (CSE Department, HKUST), 爱丁堡大学 (University of Edinburgh), 英伟达人工智能技术中心 (NVIDIA AI Technology Center, NVIDIA, Santa Clara, USA)
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
MMLONGBENCH数据集通过整合13,331个样本,覆盖了视觉检索增强生成(VRAG)、多模态干草堆任务(NIAH)、多示例上下文学习(ICL)、长文档摘要(Summ)和长文档视觉问答(DocVQA)五大任务类别。构建过程中采用了跨模态标记化方案,将视觉块与文本标记统一计数,并严格控制输入长度在8K至128K标记之间,确保评估的标准化与可扩展性。数据来源包括Wikipedia知识库、TriviaQA数据集及PDF格式政府报告等多样化素材,通过插入干扰段落、平衡类别样本等方式增强数据复杂性。
使用方法
使用MMLONGBENCH时需遵循标准化流程:首先加载经Llama2标记器处理的文本与视觉标记,按预设长度(8K/16K/32K/64K/128K)组织输入序列。评估涵盖精确子串匹配(SubEM)、准确率(Acc)及基于LLM的摘要评分等多维度指标。针对不同任务,可选择性启用OCR文本转换或原始PDF处理流程,以测试模型在跨模态理解上的差异。建议结合错误分析模块,重点关注光学字符识别(OCR)准确率与跨模态检索能力等瓶颈指标,通过任务间性能对比揭示模型的长上下文处理机制。
背景与挑战
背景概述
MMLONGBENCH是由香港科技大学、腾讯AI西雅图实验室、爱丁堡大学等机构的研究团队于2025年推出的首个专注于长上下文视觉语言模型(LCVLMs)评估的综合性基准测试。该数据集包含13,331个样本,涵盖视觉检索增强生成(VRAG)、多示例上下文学习(ICL)等五大任务类别,并创新性地采用跨模态标记化方案,支持8K至128K标记的标准输入长度。作为领域内首个系统评估长上下文多模态能力的基准,MMLONGBENCH填补了现有评测在任务多样性、图像类型覆盖和长度控制标准化方面的空白,为GPT-4o、Gemini等前沿模型的性能诊断提供了重要依据。
当前挑战
MMLONGBENCH面临的核心挑战体现在两个方面:在领域问题层面,现有模型在光学字符识别(OCR)准确率和跨模态检索能力上存在显著瓶颈,如Gemini-2.5-Pro在128K标记长度下的平均得分仅62.9;在构建技术层面,需解决跨模态长度标准化难题——通过14×14图像分块与2×2像素重组实现视觉标记计数,同时确保五种标准长度下13类数据集的动态调整。特别地,文本-图像交织的'大海捞针'任务中,即使顶级模型在8K上下文中的准确率也难以突破80%,暴露出长上下文多模态理解的固有困难。
常用场景
经典使用场景
MMLONGBENCH作为首个全面覆盖长上下文视觉-语言任务的数据集,其经典使用场景集中在评估模型处理多模态长上下文输入的能力。该数据集通过整合13,331个样本,涵盖视觉检索增强生成(VRAG)、多示例上下文学习(ICL)、文档级视觉问答(DocVQA)等五大任务类别,支持8K至128K令牌的标准输入长度控制。研究者可利用其混合自然与合成图像的特性,系统测试模型在跨模态信息整合、长序列理解及噪声过滤等核心能力上的表现。
解决学术问题
该数据集有效解决了长上下文视觉-语言模型(LCVLMs)评估体系不完善的学术痛点。传统基准测试往往局限于单一任务类型(如NIAH)或单一图像类型,而MMLONGBENCH通过统一跨模态令牌计数方法、标准化多长度输入设计,首次实现了对模型长上下文能力的多维度量化。其实验结果揭示了当前模型在光学字符识别(OCR)和跨模态检索等关键任务上的性能瓶颈,为改进模型架构和训练策略提供了明确方向。
实际应用
在实际应用层面,MMLONGBENCH支撑的场景包括复杂文档理解、跨网页多跳推理以及基于长视觉上下文的指令跟随系统。例如在医疗领域,模型可通过分析包含数百张医学影像的PDF报告实现自动化摘要;在教育场景中,系统能基于混合图文的长教材内容精准回答学生提问。数据集对输入长度的严格控制特性,尤其适用于需要平衡计算效率与信息完整性的工业级应用部署。
数据集最近研究
最新研究方向
随着长上下文视觉语言模型(LCVLMs)的快速发展,MMLONGBENCH作为首个全面评估此类模型性能的基准测试,在计算机视觉与自然语言处理交叉领域引起了广泛关注。该数据集通过整合视觉检索增强生成(VRAG)、多示例上下文学习(ICL)等五大任务类别,并采用跨模态标记化方案,系统性地评估了模型在8K至128K标记范围内的长上下文理解能力。前沿研究聚焦于三个核心方向:探索模型在复杂跨模态检索任务中的性能瓶颈,分析推理能力与长上下文表现的关联性,以及开发更高效的视觉标记压缩方法。近期,Gemini、GPT-4o等闭源模型与Qwen、InternVL等开源架构在基准测试中的对比分析表明,光学字符识别(OCR)精度和跨模态信息整合仍是当前技术突破的关键难点。
相关研究论文
- 1MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly香港科技大学计算机科学与工程系 (CSE Department, HKUST), 爱丁堡大学 (University of Edinburgh), 英伟达人工智能技术中心 (NVIDIA AI Technology Center, NVIDIA, Santa Clara, USA) · 2025年
以上内容由遇见数据集搜集并总结生成



