MileBench

arXiv2024-05-15 更新2024-06-24 收录

下载链接：

https://milebench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

一个旨在测试多模态长上下文能力的开创性基准，不仅包含多模态长上下文，还包括需要理解和生成的多种任务。

A pioneering benchmark designed to test multimodal long-context capabilities, which not only includes multimodal long-context content but also covers a variety of tasks requiring both understanding and generation.

创建时间：

2024-04-29

搜集汇总

数据集介绍

构建方式

MileBench的构建基于对现有多模态大语言模型评估基准的深刻反思，旨在填补其在长上下文与多图像任务上的评估空白。该数据集整合了来自21个既有或自建数据集的6,440个样本，平均每个样本包含15.2张图像与422.3个单词，远超以往基准的规模。数据来源分为两类：一是从公开发布于顶级会议的高质量数据集中采样，优先选取多图像样本，并将视频通过关键帧提取技术转化为图像序列；二是针对长文本图像问答、图像检索及多模态‘大海捞针’等新任务，利用GPT-4V等工具合成数据。所有样本均经过严格的人工审核，确保了超过95%的标注者间一致性，错误率低于1%。

特点

MileBench最显著的特点在于其开创性地聚焦于多模态长上下文评估，涵盖诊断性与真实性两大评测集。诊断性评测通过‘大海捞针’与图像检索任务，系统考察模型在冗长且含干扰项的多模态信息中精准检索的能力。真实性评测则模拟现实场景，包含时间性多图像任务（如动作预测、场景理解）与语义性多图像任务（如知识问答、视觉关系推理），全面检验模型对复杂跨模态信息的理解、整合与推理能力。该数据集样本的图像数量跨度极大（2至109张），且文本长度变化丰富，能够有效揭示模型性能随上下文增长而衰减的现象，并放大开源与闭源模型间的能力鸿沟。

使用方法

使用MileBench时，研究者需将模型置于零样本设定下，依据任务类型提供统一的指令与问题格式，模型需基于输入的图像序列与文本生成答案。对于多项选择任务，模型需从给定选项中选出正确结果；对于开放式生成任务，则采用ROUGE-L等指标评估生成质量。评估过程中需注意模型的最大上下文长度限制，必要时需截断输入以保留关键信息。此外，该基准支持两种评测模式：多图像模式（原始图像序列输入）与合并图像模式（将多张图像拼接为单张输入），后者可用于测试模型在单图像输入限制下的长上下文处理能力，为分析模型架构提供额外视角。

背景与挑战

背景概述

多模态大语言模型（MLLMs）在视觉与语言任务上取得了显著进展，然而现有评测基准如SEED-Bench和MMBench多聚焦于单图像与短文本样本，难以反映真实世界中多图像与长上下文的复杂场景。为弥合这一鸿沟，香港中文大学（深圳）与深圳市大数据研究院的Song等人于2024年创建了MileBench，旨在系统评估MLLMs在多模态长上下文中的能力。该基准包含诊断性与真实性两套评测集，涵盖6,440个样本，平均每样本含15.2张图像与422.3个词，远超此前基准的规模。MileBench的提出揭示了闭源模型如GPT-4o与开源模型之间的显著性能鸿沟，并强调了多图像长上下文理解作为未来研究关键方向的重要性，对推动MLLMs在现实应用中的发展具有深远影响。

当前挑战

MileBench面临的核心挑战源自其所解决的领域问题：现有MLLMs在多图像长上下文任务中表现欠佳，尤其是开源模型在图像数量增加时性能急剧下降，例如在诊断评测中开源模型平均仅达10.1%，远逊于闭源模型的79.2%。构建过程中，挑战亦十分显著：需从21个既有或自建数据集中采集多样化的多图像样本，确保平均15.2张图像与422.3个词的长上下文覆盖；同时，对合成数据如Text Needle In A Haystack进行严格的人工审核，要求98%的标注者一致性以保障质量。此外，数据污染风险的规避也构成挑战，通过构建对抗性集验证，确保模型未在基准上过拟合。

常用场景

经典使用场景

在视觉与语言模型快速演进的浪潮中，评估基准的构建始终是推动技术发展的关键基石。MileBench 作为首个专为多模态大语言模型（MLLMs）设计的长上下文基准，其核心使用场景在于系统性地衡量模型在超长多模态上下文中的综合能力。该基准通过构建诊断性评估与真实性评估两大维度，前者采用“大海捞针”与图像检索任务，精准探测模型在冗长干扰信息中召回关键线索的鲁棒性；后者则涵盖时序多图像与语义多图像任务，模拟现实世界中复杂的多轮对话、动作预测与空间导航场景。MileBench 的引入，填补了此前评估体系仅聚焦单图像或短文本的空白，为检验 MLLMs 在动态、高密度信息环境下的推理与适应能力提供了标准化测试平台。

实际应用

MileBench 所模拟的场景紧密映射着人工智能在现实世界中的前沿应用。在自动驾驶领域，模型需同时解析来自多个车载摄像头的实时画面，并基于时序信息做出安全决策，这正是 MileBench 中空间理解与视觉导航任务的直接体现。在智能辅助系统中，用户可能上传一系列文档截图或会议幻灯片，并要求模型进行跨页面的知识整合与推理，这恰好对应于基准中的知识增强问答与文本丰富图像问答任务。此外，在具身智能与机器人导航中，代理需根据多帧第一人称视角图像理解环境变化并规划下一步动作，MileBench 的动作预测与反事实推理任务为此提供了严苛的测试环境。因此，该基准不仅是学术评估工具，更是检验多模态模型从实验室走向工业部署前综合能力的试金石。

衍生相关工作

MileBench 的问世催生了一系列与之密切相关的后续工作，推动了多模态长上下文研究生态的繁荣。一方面，其揭示的性能短板直接激发了针对长上下文 MLLMs 的架构创新，例如研究者们开始探索更高效的视觉 token 压缩策略（如 LLaMA-VID 将每张图像压缩至 2 个 token），以及通过交错图像-文本数据训练来增强模型的多图像泛化能力（如 Mantis 模型）。另一方面，MileBench 的评估框架被广泛借鉴，衍生出针对特定领域的增强版本，例如在视频理解领域，研究者借鉴其“大海捞针”任务设计出跨模态的时间定位基准。此外，该基准的构建方法论——融合诊断性与真实性评估——也启发了后续工作如 MMLongBench 的设计，进一步拓展了长上下文评估的模态与任务广度，形成了从单模态到多模态、从静态到动态的完整评估谱系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集