Mementos

Name: Mementos
Creator: 马里兰大学帕克分校
Published: 2024-01-25 12:11:57
License: 暂无描述

arXiv2024-01-25 更新2024-06-21 收录

下载链接：

https://github.com/umd-huanglab/Mementos

下载链接

链接失效反馈

官方服务：

资源简介：

Mementos是一个专为评估多模态大型语言模型（MLLMs）在处理图像序列时的推理能力而设计的新基准。该数据集由马里兰大学帕克分校创建，包含4761个图像序列，涵盖日常生活、机器人任务和漫画风格的故事板等多种场景。每个序列都配有人工标注的主要对象及其行为描述。数据集的创建过程涉及从视频中提取图像并进行人工审核和调整，确保描述与实际图像序列相符。Mementos旨在解决现有MLLMs在理解动态世界方面的局限性，特别是在处理连续图像时的行为推断和逻辑关联。

Mementos is a novel benchmark designed to evaluate the reasoning capabilities of multimodal large language models (MLLMs) when processing image sequences. Developed by the University of Maryland, College Park, this dataset contains 4,761 image sequences spanning diverse scenarios including daily life, robotics tasks, and comic-style storyboards. Each sequence is paired with manually annotated descriptions of its primary objects and their behaviors. The dataset creation process involved extracting frames from videos followed by manual review and refinement to ensure that the descriptions align perfectly with the corresponding image sequences. Mementos aims to address the existing limitations of current MLLMs in understanding the dynamic world, particularly regarding behavior inference and logical association when handling continuous images.

提供机构：

马里兰大学帕克分校

创建时间：

2024-01-19

搜集汇总

数据集介绍

构建方式

在动态视觉推理领域，Mementos数据集的构建体现了对多模态大语言模型（MLLMs）时序理解能力的系统性评估需求。该数据集通过精心设计的流程，从日常生活、机器人操作和漫画叙事三个领域收集了总计4,761个长度不一的图像序列。具体而言，日常生活序列源自Next-QA数据集的视频片段，通过保留首帧并每100帧采样一帧的方式构建；机器人数据选自Open X-Embodiment数据集，依据视频长度采用动态采样策略；漫画数据则来自网络无字多格漫画及电影故事板，通过截图形成序列。每个序列均配有人工标注的真实描述，聚焦于主要对象及其行为，其中日常生活数据的标注结合了GPT-4V的初步生成与人工校验，而机器人与漫画数据则完全依赖人工标注与交叉验证，确保了数据的高质量与可靠性。

特点

Mementos数据集的核心特点在于其针对时序图像推理的专门性与挑战性。数据集涵盖多样化的场景，从日常活动的动态变化到机器人任务的精确操作，再到漫画风格的叙事表达，全面覆盖了MLLMs在实际应用中可能遇到的复杂情境。数据集中图像序列的长度分布广泛，约67.38%的序列包含4至14帧，同时有31.90%的序列超过15帧，这种长度差异有效考验了模型处理不同时间跨度的能力。此外，数据集的标注不仅包含对象信息，更强调行为描述，通过提取行为关键词量化事件长度，从而揭示了模型在推断动态行为方面的薄弱环节。这种设计使得Mementos能够精准暴露MLLMs在时序推理中普遍存在的对象与行为幻觉问题。

使用方法

Mementos数据集的使用旨在系统评估MLLMs在图像序列上的推理性能。评估时，将图像序列与预设提示词作为输入，要求模型生成对应描述。随后，采用GPT-4辅助的评估流程：从模型生成描述和人工标注描述中分别提取对象与行为关键词，并通过预构建的同义词图进行关键词匹配与归一化，最终形成对象列表和行为列表。以人工标注列表为基准，计算召回率、精确率和F1分数，从而量化模型在对象识别与行为推理上的准确性及幻觉程度。该评估方法经过人工验证，显示出与人工评估高度一致的可信度。研究者可利用这一流程，对比不同MLLMs在跨域序列理解上的表现，深入分析幻觉成因，并为提升模型时序推理能力提供实证依据。

背景与挑战

背景概述

随着多模态大语言模型在视觉语言任务中展现出卓越能力，其推理能力尤其在动态场景下的局限性逐渐凸显。Mementos数据集由马里兰大学和北卡罗来纳大学教堂山分校的研究团队于2023年创建，旨在系统评估多模态大语言模型对图像序列的时序推理能力。该数据集包含4761个涵盖日常生活、机器人任务和漫画叙事等多元场景的图像序列，通过人类标注的行为描述构建基准真值。其核心研究问题聚焦于探索模型在动态视觉信息中的行为推断与对象关联能力，为理解模型在连续视觉语境下的认知机制提供了重要实证基础，推动了多模态推理研究从静态图像向时序动态场景的范式转变。

当前挑战

Mementos数据集致力于解决多模态大语言模型在图像序列推理中的行为与对象幻觉问题，其核心挑战在于模型对时序动态信息的准确解析。在领域问题层面，现有模型普遍存在行为幻觉现象，即对实体动作的错误推断，其频率显著高于对象幻觉；同时模型在跨域场景中表现不稳定，尤其在机器人领域与开放域数据之间存在显著分布偏移。在构建过程中，数据采集需平衡序列长度与信息完整性，从视频中采样关键帧时需避免时序断裂；标注阶段需克服自动化生成描述与人工校验间的协同难题，特别是在机器人领域需精确捕捉机械臂的细粒度操作语义。此外，评估体系依赖GPT-4辅助的关键词提取与同义词图构建，如何确保评估指标与人类判断的一致性亦是重要挑战。

常用场景

经典使用场景

在评估多模态大语言模型对动态视觉信息的理解能力时，Mementos数据集提供了一个严谨的测试平台。该数据集通过包含日常生活、机器人操作和漫画叙事三大领域的图像序列，要求模型从连续帧中推断物体的位置变化与行为模式。这一过程超越了静态图像分析，迫使模型整合时序信息以构建连贯的事件描述，从而精准衡量模型在动态推理任务中的表现。

实际应用

在实际应用层面，Mementos数据集对机器人视觉控制、智能监控与视频内容分析等领域具有重要价值。在机器人任务中，模型需准确解读机械臂的操作序列以生成可靠指令；在安防监控中，系统需从连续画面中识别异常行为；在多媒体处理中，自动生成连贯的视频描述依赖于对时序事件的理解。该数据集的评估机制有助于筛选出在动态场景下表现稳健的模型，推动相关技术在实际环境中的安全部署。

衍生相关工作

Mementos数据集的推出激发了多模态推理研究的新方向，催生了一系列关注时序幻觉缓解与动态理解增强的工作。例如，基于其揭示的共现行为误导问题，后续研究开始探索如何通过因果干预减少模型对常见行为配对的依赖；针对雪球效应，有工作设计了渐进式推理框架以抑制错误累积；此外，该数据集也促进了专门用于视频或序列图像理解的新型模型架构与训练策略的开发，推动多模态模型向更精准的时序语义理解演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集