MMLongCite

Name: MMLongCite
Creator: 苏州大学, 字节跳动, 哈尔滨工业大学, 中南大学
Published: 2025-10-15 16:22:03
License: 暂无描述

arXiv2025-10-15 更新2025-10-17 收录

下载链接：

https://github.com/jiqimaoke/MMLongCite

下载链接

链接失效反馈

官方服务：

资源简介：

MMLongCite是一个用于评估大型视觉语言模型（LVLMs）在长上下文场景中忠实度的综合基准。该数据集包含8个不同的任务，跨越6个上下文长度区间，并融合了多种模态，包括文本、图像和视频。MMLongCite旨在克服现有基准的局限性，通过包含更大规模和更多样化的数据来解决这些问题。数据集的上下文长度从8K到48K Tokens不等，涵盖了从单源视觉推理到多源视觉推理、视觉定位和视频理解等多种任务，为评估LVLMs在长上下文场景中的性能提供了一个全面且严格的基准。

提供机构：

苏州大学, 字节跳动, 哈尔滨工业大学, 中南大学

创建时间：

2025-10-15

原始信息汇总

MMLongCite 数据集概述

数据集名称

MMLongCite

核心定位

用于评估长上下文视觉语言模型保真度的基准数据集

当前状态

代码正在接受公司内部审核流程
审核完成后将尽快发布代码和对应数据

主要用途

评估长上下文视觉语言模型的保真度性能

搜集汇总

数据集介绍

构建方式

在视觉语言模型快速发展的背景下，MMLongCite基准通过精心整合8个公开数据集构建而成，涵盖图像专用、图文交错和视频专用三种模态场景。构建过程采用系统化方法：对于连续文档类任务，通过比例裁剪策略保持关键信息位置偏差；对于离散图像任务，将文本内容转换为标准化图像格式；视频任务则通过降采样至每秒1帧来适应模型处理能力。该基准还创新性地引入MMLongCite-Grounding扩展，通过合成图像画布评估模型的空间推理能力。

特点

作为首个专注于长上下文多模态忠实度的评估基准，MMLongCite展现出显著特色。其覆盖6个上下文长度区间，从8K到48K令牌，全面挑战现代模型的极限处理能力。基准包含4大类任务和8个具体任务类型，涵盖单源视觉推理、多源视觉推理、视觉定位和视频理解等复杂场景。特别值得注意的是，基准采用引文生成机制，强制模型将其输出与提供的上下文证据相锚定，为评估响应可靠性提供了可验证路径。

使用方法

在应用层面，MMLongCite为评估视觉语言模型的长上下文忠实度提供了标准化框架。研究人员可通过基准提供的多模态上下文和查询，要求模型生成附带引文的响应。评估过程重点关注两个关键维度：引文质量和生成质量，分别通过引文精确率、召回率和正确性等指标进行量化。基准支持对12种领先模型的全面比较，包括10个开源模型和2个专有模型，为模型性能分析提供了丰富数据支撑。

背景与挑战

背景概述

随着大型视觉语言模型（LVLMs）的快速发展，其上下文窗口显著扩展，但长上下文处理能力与信息忠实利用之间存在显著差距。MMLongCite数据集由苏州大学与字节跳动等机构于2025年联合创建，旨在构建首个面向多模态长上下文场景的忠实性评估基准。该数据集通过整合文本、图像和视频三种模态，覆盖8类任务和6个上下文长度区间，系统性地评估模型在长上下文中的引用生成能力与事实一致性，为提升多模态模型的可靠部署提供了关键支撑。

当前挑战

在领域问题层面，MMLongCite需解决长上下文多模态场景中模型忠实性评估的三大挑战：跨模态证据关联的复杂性、长序列中关键信息定位的精确性、以及参数知识与上下文证据的冲突消解。在构建过程中面临数据多样性与长度平衡的技术难题：需协调不同模态数据的标准化处理，设计兼顾视觉空间推理与时间序列理解的评估任务，并克服长视频下采样与图像复合拼接带来的信息损失问题。

常用场景

经典使用场景

在视觉语言模型快速发展的背景下，MMLongCite数据集作为首个专注于长上下文多模态引证生成的基准测试工具，其经典使用场景主要集中于评估模型在复杂多模态环境下的信息忠实度。该数据集通过构建包含图像、文本和视频的混合序列，模拟现实世界中需要跨模态推理的任务环境，为研究者提供了系统性的评测框架。在具体应用中，模型需要处理长达48K token的上下文序列，并在生成回答时准确标注信息来源，这种设计有效检验了模型在长序列多模态数据中的信息提取与引证能力。

衍生相关工作

基于MMLongCite数据集的研究催生了一系列重要的衍生工作。在模型架构方面，推动了专门针对长上下文多模态任务的注意力机制优化；在训练策略上，促进了基于引证监督的微调方法发展；在评测体系内，启发了更多细粒度的忠实度评估指标设计。同时，该数据集与L-CiteEval、LongCite等文本引证基准形成互补，共同构建了从纯文本到多模态的完整引证评估生态，为后续研究提供了坚实的实验基础和比较标准。

数据集最近研究