MMLongBench

github2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/EdinburghNLP/MMLongBench

下载链接

链接失效反馈

官方服务：

资源简介：

MMLongBench是一个全面的基准测试数据集，涵盖了多样化的长上下文视觉语言任务，用于有效且全面地评估长上下文视觉语言模型（LCVLMs）。它包含13,331个示例，涵盖五种不同的下游任务类别，包括Visual RAG、NIAH、Many-Shot ICL、Summarization（基于PDF文档）和Long-Document VQA。

MMLongBench is a comprehensive benchmark dataset encompassing a wide range of long-context vision-language tasks, designed for effective and comprehensive evaluation of long-context vision-language models (LCVLMs). It contains 13,331 examples, spanning five distinct downstream task categories, including Visual RAG, NIAH, Many-Shot ICL, Summarization based on PDF documents, and Long-Document VQA.

创建时间：

2025-05-15

原始信息汇总

MMLongBench 数据集概述

数据集简介

名称：MMLongBench
目的：评估长上下文视觉语言模型（LCVLMs）的综合基准
特点：覆盖多样化的长上下文视觉语言任务
数据量：13,331个示例
任务类别：
- Visual RAG
- NIAH
- Many-Shot ICL
- Summarization（基于PDF文档）
- Long-Document VQA

数据组成

图像数据：通过脚本download_image_data.sh下载，解压至mmlb_image目录
文本数据：通过wget命令下载mmlb_data.tar.gz，解压至mmlb_data目录，格式为jsonl
托管平台：HuggingFace Dataset

使用方式

API模型支持：可使用HuggingFace Dataset中的image_collection的URL替代Base64编码
评估运行：
- 使用eval.py脚本，通过配置文件运行
- 输出结果包含详细数据点（.json）和聚合指标（.json.score）
LLM评估：使用GPT-4o指标，脚本位于scripts/eval_gpt4_summ.py

模型支持

已评估模型：46个HuggingFace模型
新增模型：
- 需添加Python脚本至vlm_model目录
- 实现format_chat、prepare_inputs和generate功能

新增任务

步骤：
1. 添加配置文件
2. 修改data.py文件
3. 在utils.py中添加新任务的指标

实用工具

缺失任务检查：scripts/check_missing.py
图表绘制：figure_scripts文件夹中的脚本

联系方式

邮箱：zwanggy@cse.ust.hk

引用与致谢

代码基础：基于HELMET修改
作者：Zhaowei Wang等

使用限制

禁止用途：生成或传播虚假、误导性或有害内容，以及涉及隐私侵犯、欺诈、歧视、骚扰、暴力、色情或任何非法目的的活动

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，MMLongBench的构建采用了系统化的数据采集与标注流程。该数据集通过整合13,331个样本，覆盖了视觉检索增强生成、非交互式问答、多示例学习、文档摘要和长文档视觉问答等五大任务类别。构建过程中采用了严格的图像数据下载与文本数据解压流程，确保数据完整性。数据以jsonl格式存储，并通过HuggingFace平台实现高效分发，为长上下文视觉语言模型评估提供了标准化测试环境。

使用方法

使用MMLongBench需通过配置驱动的工作流程实现高效评估。研究者可通过修改config目录下的配置文件，结合命令行参数覆盖技术实现灵活的任务定制。数据集支持多GPU并行处理，内置任务管理脚本可自动调度不同长度的测试任务。评估结果输出包含详细数据点信息与聚合指标的双重记录，便于深度分析与横向比较。对于新型模型的集成，需按照既定规范实现format_chat、prepare_inputs和generate三个核心函数，确保与现有评估框架的兼容性。

背景与挑战

背景概述

MMLongBench是由香港科技大学等机构的研究团队Zhaowei Wang等人构建的一个综合性长上下文视觉语言模型评测基准。该数据集创建于2024年，旨在系统评估长上下文视觉语言模型（LCVLMs）在复杂多模态任务中的表现。数据集包含13,331个样本，涵盖视觉检索增强生成（Visual RAG）、新信息吸收假设（NIAH）、多示例上下文学习（Many-Shot ICL）、基于PDF文档的摘要生成以及长文档视觉问答五大任务类别。作为当前最全面的长上下文多模态评测体系，MMLongBench为推进视觉语言模型处理长序列输入能力的研究提供了重要基础设施。

当前挑战

该数据集致力于解决长上下文视觉语言理解中的核心挑战：如何准确评估模型在扩展上下文窗口下的多模态推理能力。构建过程中面临双重困难：在任务设计层面，需要平衡长文档处理的深度与多模态交互的复杂性；在技术实现层面，需克服大规模图像数据的高效编码与存储问题，特别是处理API模型时的图像传输效率瓶颈。此外，统一不同视觉语言模型的评估接口，确保跨模型比较的公平性，也是数据集构建的关键难点。

常用场景

经典使用场景

在跨模态长上下文理解领域，MMLongBench作为首个系统化评估视觉-语言长上下文模型的基准，其经典使用场景聚焦于多模态大模型的极限上下文窗口测试。该数据集通过13,331个涵盖视觉检索增强生成、非间断图像问答、多示例上下文学习等五大任务的样本，为研究者提供了检验模型在超长视觉-文本序列中保持语义连贯性的标准化实验平台。特别在评估模型处理PDF文档摘要、长文档视觉问答等复杂场景时，数据集设计的层次化任务结构能有效揭示模型在长程依赖捕捉与跨模态对齐方面的性能边界。

解决学术问题

MMLongBench针对视觉-语言模型研究中的三大核心痛点提供了解决方案：其一，通过标准化评估框架解决了长上下文场景下模型性能度量不统一的问题；其二，设计的五类任务体系系统化验证了模型在知识检索、连续推理等认知能力维度的表现；其三，创新的视觉token压缩策略（14x14分块与2x2像素重组）为突破Transformer架构的上下文窗口限制提供了方法论参考。该数据集首次实现了对46种主流模型在超长多模态上下文场景下的横向对比，为模型架构优化提供了关键基线数据。

实际应用

在医疗影像报告生成、法律文书视觉问答等实际场景中，MMLongBench的评估范式可直接迁移应用。其构建的视觉检索增强生成任务模拟了医疗AI系统从海量文献中提取图文证据的过程，而长文档VQA任务则复现了法律智能助理解析卷宗文档的需求。数据集特别优化的API模型评估流程（基于URL的图像传输）显著提升了商业大模型在工业场景中的测试效率，使得GPT-4o等模型在金融文档分析、教育课件理解等领域的落地应用有了可靠的效果评估依据。

数据集最近研究