EgoToM

Name: EgoToM
Creator: Reality Labs
Published: 2025-03-28 13:10:59
License: 暂无描述

arXiv2025-03-28 更新2025-04-03 收录

下载链接：

https://github.com/facebookresearch/EgoToM

下载链接

链接失效反馈

官方服务：

资源简介：

EgoToM是一个新的视频问答基准，旨在将心理理论（ToM）评估扩展到第一人称视角领域。该数据集使用因果ToM模型生成多选视频问答实例，以预测摄像机佩戴者的目标、信念和后续行动。数据集基于Ego4D数据集构建，包含超过1000个问题，覆盖了785个独特的视频片段。这些问题评估模型对摄像机佩戴者目标、信念和未来行动的连贯理解。EgoToM的创建过程包括视频选择、问答生成和质量检查等多个步骤，旨在为智能第一人称视角助手提供准确的用户推理和预测能力评估。

EgoToM is a novel video question answering benchmark that aims to extend Theory of Mind (ToM) evaluations to the first-person perspective domain. This dataset employs causal ToM models to generate multiple-choice video QA instances for predicting the goals, beliefs, and subsequent actions of the camera-wearer. Built upon the Ego4D dataset, EgoToM contains over 1,000 questions spanning 785 unique video clips. These questions evaluate a model's coherent understanding of the camera-wearer's goals, beliefs, and future actions. The development pipeline of EgoToM includes multiple steps such as video selection, QA generation, and quality inspection, aiming to provide accurate assessments of user reasoning and prediction capabilities for intelligent first-person perspective assistants.

提供机构：

Reality Labs

创建时间：

2025-03-28

原始信息汇总

EgoToM数据集概述

数据集简介

名称：EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos
论文链接：http://arxiv.org/abs/2503.22152
用途：评估多模态大语言模型从第一人称视角视频中推断穿戴者目标、即时信念状态和未来行动的能力

数据集内容

问题类型：
- 行动问题：354个（论文中使用267个）
- 信念问题：335个（论文中使用202个）
- 目标问题：351个（论文中使用237个）
数据文件：
- egotom_{question}_shuffled.csv：包含每个问题的选项和正确答案
- all_prompts.json：包含用于评估VLM的提示

数据结构

关键字段：
- vuid：Ego4D视频UID
- cuid：EgoToM剪辑UID，格式为{vuid}~{narrator}~{clip_narration_start_index}-{clip_narration_end_index}
- narrations_in_context：视频剪辑中直到查询时刻的人类叙述
- gt_{question}：问题的正确答案
- {question}_choice_{abcd}：选项
- clip_start_time和clip_end_time：剪辑在原始Ego4D视频中的开始和结束时间

使用说明

视频获取：需要从Ego4D官网下载原始视频
视频处理：使用code/generate_video_context.py脚本从原始视频中裁剪视频上下文
模型评估：使用code/vlm_evaluate.py进行批量评估

许可证

类型：CC-by-NC
用途限制：仅用于基准测试目的
注意事项：包含GPT-4 Turbo的输出，受OpenAI条款约束

搜集汇总

数据集介绍

构建方式

EgoToM数据集的构建基于Ego4D数据集中的第一人称视角视频，通过因果理论心智(ToM)模型生成多选问答实例，以评估模型在预测相机佩戴者目标、信念和未来行动方面的能力。构建过程包括三个阶段：首先对视频叙述进行深入分析，生成真实的目标、信念和行动陈述；随后基于真实陈述生成反事实的替代陈述作为错误选项；最后通过自动和人工质量检查确保问题的视觉基础和推理质量。

特点

EgoToM数据集包含超过1000个多选问题，覆盖785个独特的视频片段，分为目标推理、信念推理和行动推理三类。其独特之处在于通过因果ToM模型生成配对的目标、信念和行动问题，评估模型在多层次推理上的一致性和准确性。数据集中的错误选项设计为与真实未来行为不符但合理的反事实情景，增加了推理难度。

使用方法

EgoToM数据集可用于评估多模态大语言模型(MLLMs)在自我中心视频中的心智理论推理能力。使用时，可提供视频帧或文本叙述作为上下文，测试模型在目标、信念和行动推理上的表现。评估可关注不同上下文长度对模型性能的影响，以及模型在多层次推理上的一致性。数据集还可用于研究视觉信息与语言信息在ToM推理中的相对贡献。

背景与挑战

背景概述

EgoToM数据集由Meta的研究团队于2025年3月推出，旨在通过第一人称视角视频评估机器对心理理论（Theory of Mind, ToM）的推理能力。该数据集基于Ego4D视频库构建，包含超过1,000个多选问题，覆盖目标推断、信念推断和行动预测三个核心维度。研究团队采用因果ToM模型生成问题实例，重点关注数字助手如何准确预测穿戴者的心理状态和行为。作为首个将ToM评估扩展到自我中心视觉领域的基准，EgoToM为多模态大语言模型（MLLMs）的社会推理能力提供了标准化测试框架，推动了具身智能和人性化人机交互的研究进程。

当前挑战

EgoToM面临的核心挑战体现在两个层面：在领域问题层面，模型对穿戴者即时信念状态（准确率约50%）和未来行动（准确率约54%）的推理显著落后于人类水平（70%-77%），尤其在处理反事实选择时表现薄弱；在构建技术层面，数据集需克服视觉信息与心理状态标注的割裂问题——研究者通过严格的LLM生成过滤（如关键词筛除、无上下文基线测试）和人工质量检查，确保问题既符合ToM因果模型又保持视觉可验证性。多帧信息整合的稀疏采样方式也限制了模型对长时序行为模式的理解，这反映在视频上下文延长时模型性能提升有限的现象中。

常用场景

经典使用场景

EgoToM数据集作为评估心理理论（Theory-of-Mind, ToM）推理能力的基准，其经典使用场景主要集中在通过第一人称视角视频分析，评估模型对视频佩戴者目标、信念及未来行为的推理能力。该数据集通过生成多选问答实例，要求模型基于视频上下文推断佩戴者的心理状态和行为意图，从而模拟人类在复杂社交互动中的认知过程。

解决学术问题

EgoToM数据集解决了多模态大语言模型（MLLMs）在心理理论推理中的关键学术问题，包括模型对未观察到的内部信念状态的推理能力、目标导向行为的预测准确性，以及长时上下文信息的整合能力。其结构化问答生成框架填补了自然主义场景下ToM评估的空白，揭示了当前模型在信念推理和动作预测方面与人类表现的显著差距。

衍生相关工作

EgoToM衍生了一系列探索视频语言模型ToM能力的研究，如基于因果行为模板的问答生成方法被扩展至社交互动分析领域。相关工作包括Ego4D Goal-Step的多层次目标推理评估，以及EgoPlan-Bench对目标条件行为预测的改进，共同推动了第一人称视角下高阶社会认知任务的算法发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集