MOMENTS (Multimodal Mental States)

Name: MOMENTS (Multimodal Mental States)
Creator: MBZUAI, University of Houston, McGill University, University of Michigan
Published: 2025-07-06 23:06:30
License: 暂无描述

arXiv2025-07-06 更新2025-08-15 收录

下载链接：

https://github.com/villacu/MoMentS

下载链接

链接失效反馈

官方服务：

资源简介：

MOMENTS（多模态心理状态）是一个全面的基准测试，旨在通过现实、叙事丰富的场景来评估多模态大型语言模型（LLM）的ToM能力。数据集包括超过2344个多选题，涵盖了七个不同的ToM类别。基准测试具有长的视频上下文窗口和现实的社会互动，为深入了解角色的心理状态提供了更深入的见解。虽然视觉模态通常可以提高模型性能，但当前系统仍然难以有效地整合它，这突出了对AI在多模态理解人类行为方面的进一步研究的需求。

MOMENTS (Multimodal Mental States) is a comprehensive benchmark designed to evaluate the Theory of Mind (ToM) capabilities of multimodal large language models (LLMs) through realistic, narrative-rich scenarios. The dataset includes over 2,344 multiple-choice questions spanning seven distinct ToM categories. This benchmark features long video context windows and realistic social interactions, providing in-depth insights into the mental states of characters. While visual modalities typically improve model performance, current systems still struggle to effectively integrate them, which underscores the need for further research into AI's multimodal understanding of human behavior.

提供机构：

MBZUAI, University of Houston, McGill University, University of Michigan

创建时间：

2025-07-06

搜集汇总

数据集介绍

构建方式

MOMENTS数据集的构建基于ATOMS分类法，涵盖了七种心智理论（ToM）能力：意图、欲望、信念、知识、感知、非字面沟通和情感。数据集通过168部长篇视频中的2,344个人工标注的多选题进行构建，每个问题均包含一个正确答案和三个干扰项。标注过程采用LLM辅助框架，以减少答案集的偏见，确保问题的高质量和挑战性。

使用方法

MOMENTS数据集主要用于评估多模态大语言模型（LLMs）在心智理论任务中的表现。研究人员可通过提供视频、音频或文本输入，测试模型在不同ToM能力上的推理能力。数据集支持两种上下文窗口设置：完整上下文窗口和聚焦上下文窗口，便于分析模型在不同时间尺度下的表现。使用时需注意避免依赖单一模态，充分利用多模态信息进行综合推理。

背景与挑战

背景概述

MOMENTS (Multimodal Mental States) 是由MBZUAI、休斯顿大学、麦吉尔大学和密歇根大学的研究团队于2025年推出的多模态基准数据集，旨在评估多模态大语言模型(LLMs)的心理理论(ToM)能力。该数据集包含2,344个多选题，涵盖七种ToM能力类别，源自168部现实世界长视频。作为首个基于真实人类演员视频的ToM评估基准，MOMENTS通过叙事丰富的短电影场景，为理解角色心理状态提供了深层视角，填补了现有文本或简化多模态评估与真实社交场景推理之间的空白。

当前挑战

MOMENTS面临的核心挑战体现在两个方面：领域问题上，现有模型难以有效整合视觉模态来推断复杂社交互动中的心理状态，尤其在处理非文字交流、信念和感知等ToM能力时表现欠佳；构建过程中，长视频上下文窗口的标注需要平衡叙事完整性与问题聚焦性，同时通过对抗性干扰项生成来减少答案集偏差，这要求创新的LLM参与式标注框架。此外，确保多模态线索(如面部表情、肢体语言)与问题间的精确对齐也是重要挑战。

常用场景

经典使用场景

MOMENTS数据集通过真实且叙事丰富的短片场景，评估多模态大语言模型（LLMs）在心理理论（Theory of Mind, ToM）能力上的表现。其经典使用场景包括设计多选问题，涵盖七个不同的ToM类别，如意图、欲望、信念、知识、感知、非字面沟通和情感。这些问题基于长视频上下文窗口和真实社交互动，为模型提供了深入理解角色心理状态的机会。

解决学术问题

MOMENTS数据集解决了当前ToM评估中存在的关键学术问题，如现有基准主要集中在基于文本的叙述或简化的多模态设置上，忽视了情感、意图和社交背景的复杂交互。通过引入真实世界视频和多样化的ToM能力评估，该数据集填补了理论与实际社交推理之间的空白，推动了多模态ToM研究的发展。

实际应用

在实际应用中，MOMENTS数据集可用于开发具有社交智能的多模态代理，如虚拟助手、教育工具和心理健康支持系统。通过提升模型对非语言线索（如面部表情、身体语言和语音语调）的理解能力，这些代理能够更准确地预测和响应用户需求，从而在沟通、协作和陪伴等领域发挥重要作用。

数据集最近研究