EgoToM

github2025-04-02 更新2025-04-01 收录

下载链接：

https://github.com/facebookresearch/EgoToM

下载链接

链接失效反馈

官方服务：

资源简介：

EgoToM是一个基于Ego4D视频的egocentric theory-of-mind基准测试，包含多项选择题，用于评估多模态大型语言模型推断摄像机佩戴者目标、即时信念状态和未来行动的能力。

EgoToM is an egocentric theory-of-mind benchmark based on Ego4D videos, which comprises multiple-choice questions used to evaluate the ability of multimodal large language models (LLMs) to infer the camera wearer's goals, current belief states, and future actions.

创建时间：

2025-03-27

原始信息汇总

EgoToM数据集概述

数据集简介

名称：EgoToM
类型：以自我为中心的视频理论推理基准
基础数据：基于Ego4D视频构建
主要功能：评估多模态大语言模型在推断相机佩戴者目标、即时信念状态和未来行动方面的能力

数据集内容

问题类型

动作问题：354个（完整集）/267个（论文集）
信念问题：335个（完整集）/202个（论文集）
目标问题：351个（完整集）/237个（论文集）

文件结构

完整问题集 (egotom/)
- 包含论文中未涵盖的额外问题
- 文件格式：egotom_{question}_shuffled.csv
  - 包含视频UID、剪辑UID、上下文叙述、正确答案和选项等信息
- all_prompts.json：包含用于评估VLM的提示
论文问题集 (egotom_paper/)
- 仅包含论文中使用的问题子集

数据获取与处理

原始视频：需从Ego4D官网下载
视频处理：使用code/generate_video_context.py脚本基于查询时刻裁剪视频上下文

评估方法

评估脚本：code/vlm_evaluate.py
配置示例：config/VLMeval/run_evaluation_multiexp.yaml
模型适配：code/VLMs/包含不同模型的推理代码

许可信息

许可证：CC-by-NC（仅限基准测试用途）
数据限制：包含GPT-4 Turbo输出，受OpenAI条款约束

搜集汇总

数据集介绍

构建方式

EgoToM数据集基于Ego4D视频库构建，通过精心设计的实验流程采集第一视角视频片段，并标注多模态理论心智推理问题。研究团队从原始视频中截取关键片段，构建了包含目标推断、即时信念状态分析和未来行为预测三大类问题的多选题基准。每个问题均配备四个选项及标准答案，视频片段与对应叙述文本通过唯一标识符关联，确保数据结构的严谨性。

特点

该数据集最显著的特点是全面覆盖心智理论推理的三大维度，包含1040个精细标注的问题实例。每个视频片段均配有精确的时间戳和叙述文本，支持多模态大语言模型的能力评估。数据采用分层结构组织，既包含论文使用的核心问题集，也提供扩展问题集以供深入研究。特别设计的提示词模板支持不同实验条件的灵活配置，为模型评估提供标准化框架。

使用方法

使用该数据集需先获取Ego4D原始视频资源，通过配套脚本提取指定时间段的视频片段。评估时加载预定义的提示词模板和问题集，配置模型参数后运行批量评估脚本。系统支持多种视觉语言模型的并行测试，用户可通过修改YAML配置文件自定义评估条件。输出结果包含模型在各问题类型上的表现指标，便于进行系统的对比分析。

背景与挑战

背景概述

EgoToM数据集作为一项基于Ego4D视频素材构建的自我中心视角心理理论推理基准，由研究团队于2023年提出，旨在评估多模态大语言模型对穿戴者意图、即时信念状态及未来行为的推断能力。该数据集依托卡内基梅隆大学等机构主导的Ego4D项目，通过354个动作问题、335个信念问题和351个目标问题构成的三维评估体系，填补了第一人称视角下机器心智化能力量化研究的空白，为认知计算领域提供了首个系统性的心理理论测评框架。其创新性地将社会认知神经科学中的心智化机制转化为可计算任务，推动了具身智能体对社会性线索的理解深度。

当前挑战

在解决领域问题层面，EgoToM面临心理理论多模态建模的核心挑战：如何从动态视觉信号中解耦出隐含的意图与信念，这要求模型同时处理时空视觉特征、语言叙述及社会情境的复杂交互。构建过程中，研究团队需克服原始视频片段叙事离散性带来的标注困难，通过设计三重验证机制确保问题与真实心理状态的一致性。视频片段时空裁剪的精确度控制、多选项干扰项的心理学效度平衡，以及避免大语言模型数据污染对评估结果的影响，均为数据集构建中的关键技术壁垒。

常用场景

经典使用场景

在心理学与人工智能交叉领域，EgoToM数据集为研究者提供了一个独特的基准测试平台，专门用于评估多模态大语言模型在理解人类心理状态方面的能力。通过基于Ego4D视频构建的多选题，该数据集能够系统地测试模型对穿戴者目标、即时信念状态及未来行动的推理能力，为心理理论（Theory of Mind）研究提供了量化工具。

衍生相关工作

围绕EgoToM数据集，学术界已展开一系列相关研究。部分工作聚焦于改进多模态模型架构以提升心理状态推理能力，另一些研究则探索如何将该基准扩展到更广泛的社会认知任务中。这些衍生研究不仅验证了数据集的科学价值，还推动了心理理论计算模型的发展，为构建更具解释性的人工智能奠定了基础。

数据集最近研究