m3eval

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/JadeHuang/m3eval

下载链接

链接失效反馈

官方服务：

资源简介：

M³Eval（多模态记忆评估）是一个专门设计用于系统评估多模态模型记忆能力的视频问答基准数据集。该数据集旨在填补现有视频理解研究在记忆评估方面的空白，重点关注模型在长视频处理中保留了什么信息、信息的保真度以及记忆在干扰下的鲁棒性。其设计基于认知心理学原理，通过一系列精心构建的任务来分离和评估记忆的不同关键维度。数据集包含多种评估任务：1) 分心注意力：要求模型同时记忆并排播放的两个独立视频流中的内容；2) 记忆干扰：探究顺序呈现的视频之间如何产生前摄干扰（先学信息干扰后学信息）或倒摄干扰（后学信息干扰先学信息）；3) 交错事件：评估模型从时间上交错混合的多个视频片段中重建原始事件序列的能力；4) N-Back：一种经典的认知任务变体，要求模型判断当前视频片段是否与之前第N个位置的片段匹配，用于测试符号记忆。数据形式为多模态（视频）输入，任务类型主要为视觉问答和多项选择。数据集规模在1,000到10,000个样本之间，适用于对多模态模型（尤其是针对长视频理解的模型）的记忆机制进行深入分析和基准测试。

M³Eval (Multimodal Memory Evaluation) is a video question-answering benchmark dataset specifically designed for systematically evaluating the memory capabilities of multimodal models. The dataset aims to fill the gap in existing video understanding research regarding memory assessment, focusing on what information models retain during long video processing, the fidelity of that information, and the robustness of memory under interference. Its design is based on cognitive psychology principles, using a series of carefully constructed tasks to isolate and evaluate different key dimensions of memory. The dataset includes various evaluation tasks: 1) Distraction Attention: requires models to simultaneously memorize content from two independent video streams played side by side; 2) Memory Interference: explores how sequentially presented videos cause proactive interference (prior learning interfering with subsequent learning) or retroactive interference (subsequent learning interfering with prior learning); 3) Interleaved Events: assesses the ability of models to reconstruct the original event sequence from multiple video segments interleaved temporally; 4) N-Back: a variant of a classic cognitive task, requiring models to judge whether the current video segment matches the segment from N positions earlier, used to test symbolic memory. The data format is multimodal (video) input, with task types primarily being visual question answering and multiple choice. The dataset scale ranges from 1,000 to 10,000 samples, suitable for in-depth analysis and benchmarking of memory mechanisms in multimodal models, especially those targeting long video understanding.

创建时间：

2026-05-09

搜集汇总

数据集介绍

构建方式

M³Eval的构建根植于认知心理学中关于记忆维度的理论框架，精心设计了四项核心任务以孤立探测多模态模型的记忆能力，包括分屏注意、记忆干扰、事件交织与N-Back。这些任务涉及同步视频流的分割注意力处理、序列呈现视频间的干扰效应评估、时间交错剪辑的记忆重构挑战以及符号化属性回比判断。数据集收录了近10,000个样本，每个样本均包含精心剪辑的视频片段与对应多选问题。视频素材选自自然场景，确保生态效度，任务设计则严格遵循心理学实验范式，以差异化条件（如左右交换、不同K与N配置）系统剖析模型记忆机制的强弱之处。

特点

该数据集的核心特点在于首次将认知心理学中的记忆评估框架系统引入多模态视频理解领域。与现有侧重感知与推理的基准不同，M³Eval专注于测量模型保持信息的忠实度、抗干扰鲁棒性以及记忆源定位的准确度。其特色任务如分屏注意可评估并行信息处理中的解耦表征能力，记忆干扰任务则揭示前摄与倒摄抑制的非对称模式。此外，事件交织任务考验时间重构的准确性，而N-Back任务则探索符号化工作记忆的局限性。这种设计不仅暴露出模型在时空域记忆源定位上的显著差异，也揭示了其与人类记忆干扰模式的本质区别，为多模态模型记忆机制研究提供了独特视角。

使用方法

使用者可通过HuggingFace CLI直接下载数据集至本地目录，并解压存档文件以获取完整视频与标注。推荐配合官方提供的评估代码使用，该代码集成于lmms-eval框架中。使用者需克隆GitHub仓库，在虚拟环境中安装依赖后，通过脚本指定模型路径、GPU编号及批次大小即可启动评估。支持的任务名称包括m3eval全集及各子任务，如记忆干扰与分屏注意。数据集默认配置为全部样本整合于一个CSV文件中，便于批量化处理。整个流程简洁高效，旨在降低评估多模态模型记忆能力的门槛，促进可复现的科学对比。

背景与挑战

背景概述

M³Eval是由黄洁、刘瑞勋、孙思睿、杨欣怡、李殷、朱毅欣和钟毅武等研究人员于2026年提出的多模态记忆评估基准。随着多模态模型向长视频理解领域迈进，记忆能力成为关键瓶颈，然而现有数据集与基准多聚焦于感知与推理，对模型信息保留的忠实性与鲁棒性缺乏系统性考察。M³Eval基于认知心理学理论，通过精心设计的视频任务隔离记忆核心维度，首次构建了全面的评估框架，对多模态模型的记忆机制进行多维度探测。该基准揭示了模型在并行视频流处理时表征解耦困难、干扰模式异于人类记忆、时间域记忆弱于空间域等共性缺陷，为未来多模态记忆机制设计提供了重要的资源与洞见，对推动视频理解与认知计算交叉研究具有深远影响。

当前挑战

M³Eval面临的核心挑战在于其解决的领域问题：多模态模型在长视频理解中记忆能力评估的缺失。现有基准未能系统评价模型如何保留、忠实再现信息以及抵抗干扰，这导致模型在处理连续或同步视频流时暴露出记忆表征纠缠、时序依赖脆弱、符号记忆有限等根本性不足。同时，构建过程亦充满挑战：需基于认知心理学原则设计可量化的隔离记忆任务，如分屏注意力、记忆干扰与交错事件重建，确保评估忠实反映记忆维度；此外，需生成包含复杂时空依赖的高质量视频数据，并设计公平的多选题形式以避免偏差。这些挑战共同要求数据集的构建须兼顾理论严谨性与实践可操作性。

常用场景

经典使用场景

M³Eval被精心设计为评估多模态模型在长视频理解中记忆能力的综合性基准。其核心使用场景聚焦于通过认知心理学启发的任务，系统性地探测模型在不同记忆维度上的表现。例如，在分屏注意力任务中，模型需同时处理并记忆两个并排视频的信息；在记忆干扰任务中，评估视频序列间的相互干扰现象；交错事件任务则检验模型从时间上打乱的片段中重构记忆的能力；而N-Back任务考察模型对符号化信息的维持与更新。这些任务共同构成了对模型记忆保真度、鲁棒性与抗干扰能力的多角度剖析。

实际应用

在实际应用中，M³Eval充当了多模态模型记忆能力的诊断工具与性能标尺。研究者和工程师可利用其标准化的评估流程，快速定位模型在长视频理解任务中的记忆短板。例如，在开发用于视频监控、电影分析、对话助手等需要持续跟踪上下文信息的系统时，M³Eval能帮助判断模型是否准确记住了关键事件与细节，以及是否容易受到前后场景的干扰。其模块化的任务设计还允许针对特定记忆维度进行定向优化，为构建更可靠、更具记忆连贯性的视频理解系统提供直接的反馈与改进方向。

衍生相关工作

M³Eval的发布催生了一系列围绕多模态模型记忆机制的重要探索。其认知心理学导向的任务设计启发了研究者重新审视现有模型在记忆保真度与干扰模式上的缺陷。典型衍生工作包括：基于M³Eval揭示的时空记忆不对称性，开发旨在增强时间记忆表征的新型网络结构；针对模型在分屏注意力任务中表现出的分离表征困难，提出多流注意力蒸馏方法；以及借鉴其记忆干扰实验范式，设计更符合人类记忆特征的正则化策略。此外，M³Eval作为基准还推动了符号记忆与神经符号融合方向的进步，激励了一系列关于如何将显式记忆模块集成到端到端多模态模型中的后续研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集