EgoToM
收藏github2025-04-02 更新2025-04-01 收录
下载链接:
https://github.com/facebookresearch/EgoToM
下载链接
链接失效反馈官方服务:
资源简介:
EgoToM是一个基于Ego4D视频的egocentric theory-of-mind基准测试,包含多项选择题,用于评估多模态大型语言模型推断摄像机佩戴者目标、即时信念状态和未来行动的能力。
EgoToM is an egocentric theory-of-mind benchmark based on Ego4D videos, which comprises multiple-choice questions used to evaluate the ability of multimodal large language models (LLMs) to infer the camera wearer's goals, current belief states, and future actions.
创建时间:
2025-03-27
原始信息汇总
EgoToM数据集概述
数据集简介
- 名称:EgoToM
- 类型:以自我为中心的视频理论推理基准
- 基础数据:基于Ego4D视频构建
- 主要功能:评估多模态大语言模型在推断相机佩戴者目标、即时信念状态和未来行动方面的能力
数据集内容
问题类型
- 动作问题:354个(完整集)/267个(论文集)
- 信念问题:335个(完整集)/202个(论文集)
- 目标问题:351个(完整集)/237个(论文集)
文件结构
-
完整问题集 (
egotom/)- 包含论文中未涵盖的额外问题
- 文件格式:
egotom_{question}_shuffled.csv- 包含视频UID、剪辑UID、上下文叙述、正确答案和选项等信息
all_prompts.json:包含用于评估VLM的提示
-
论文问题集 (
egotom_paper/)- 仅包含论文中使用的问题子集
数据获取与处理
- 原始视频:需从Ego4D官网下载
- 视频处理:使用
code/generate_video_context.py脚本基于查询时刻裁剪视频上下文
评估方法
- 评估脚本:
code/vlm_evaluate.py - 配置示例:
config/VLMeval/run_evaluation_multiexp.yaml - 模型适配:
code/VLMs/包含不同模型的推理代码
许可信息
- 许可证:CC-by-NC(仅限基准测试用途)
- 数据限制:包含GPT-4 Turbo输出,受OpenAI条款约束
搜集汇总
数据集介绍

构建方式
EgoToM数据集基于Ego4D视频库构建,通过精心设计的实验流程采集第一视角视频片段,并标注多模态理论心智推理问题。研究团队从原始视频中截取关键片段,构建了包含目标推断、即时信念状态分析和未来行为预测三大类问题的多选题基准。每个问题均配备四个选项及标准答案,视频片段与对应叙述文本通过唯一标识符关联,确保数据结构的严谨性。
特点
该数据集最显著的特点是全面覆盖心智理论推理的三大维度,包含1040个精细标注的问题实例。每个视频片段均配有精确的时间戳和叙述文本,支持多模态大语言模型的能力评估。数据采用分层结构组织,既包含论文使用的核心问题集,也提供扩展问题集以供深入研究。特别设计的提示词模板支持不同实验条件的灵活配置,为模型评估提供标准化框架。
使用方法
使用该数据集需先获取Ego4D原始视频资源,通过配套脚本提取指定时间段的视频片段。评估时加载预定义的提示词模板和问题集,配置模型参数后运行批量评估脚本。系统支持多种视觉语言模型的并行测试,用户可通过修改YAML配置文件自定义评估条件。输出结果包含模型在各问题类型上的表现指标,便于进行系统的对比分析。
背景与挑战
背景概述
EgoToM数据集作为一项基于Ego4D视频素材构建的自我中心视角心理理论推理基准,由研究团队于2023年提出,旨在评估多模态大语言模型对穿戴者意图、即时信念状态及未来行为的推断能力。该数据集依托卡内基梅隆大学等机构主导的Ego4D项目,通过354个动作问题、335个信念问题和351个目标问题构成的三维评估体系,填补了第一人称视角下机器心智化能力量化研究的空白,为认知计算领域提供了首个系统性的心理理论测评框架。其创新性地将社会认知神经科学中的心智化机制转化为可计算任务,推动了具身智能体对社会性线索的理解深度。
当前挑战
在解决领域问题层面,EgoToM面临心理理论多模态建模的核心挑战:如何从动态视觉信号中解耦出隐含的意图与信念,这要求模型同时处理时空视觉特征、语言叙述及社会情境的复杂交互。构建过程中,研究团队需克服原始视频片段叙事离散性带来的标注困难,通过设计三重验证机制确保问题与真实心理状态的一致性。视频片段时空裁剪的精确度控制、多选项干扰项的心理学效度平衡,以及避免大语言模型数据污染对评估结果的影响,均为数据集构建中的关键技术壁垒。
常用场景
经典使用场景
在心理学与人工智能交叉领域,EgoToM数据集为研究者提供了一个独特的基准测试平台,专门用于评估多模态大语言模型在理解人类心理状态方面的能力。通过基于Ego4D视频构建的多选题,该数据集能够系统地测试模型对穿戴者目标、即时信念状态及未来行动的推理能力,为心理理论(Theory of Mind)研究提供了量化工具。
衍生相关工作
围绕EgoToM数据集,学术界已展开一系列相关研究。部分工作聚焦于改进多模态模型架构以提升心理状态推理能力,另一些研究则探索如何将该基准扩展到更广泛的社会认知任务中。这些衍生研究不仅验证了数据集的科学价值,还推动了心理理论计算模型的发展,为构建更具解释性的人工智能奠定了基础。
数据集最近研究
最新研究方向
随着多模态大语言模型在认知推理领域的快速发展,EgoToM数据集的推出为评估模型在自我中心视角下的心理理论推理能力提供了重要基准。该数据集基于Ego4D视频构建,通过多选问题形式考察模型对佩戴者目标、即时信念状态及未来行动的推断能力,填补了现有研究在具身认知维度上的空白。当前前沿研究聚焦于如何融合视觉时序特征与语言上下文理解,以提升模型对复杂社会意图的解读精度。近期Meta等机构发布的Ego4D项目为这一方向注入了新动力,而EgoToM通过标准化测评框架,正推动着具身智能体在医疗辅助、人机交互等场景的应用突破。其精心设计的信念-目标-行动三级评估体系,为探索机器意识的可解释性提供了可量化的研究路径。
以上内容由遇见数据集搜集并总结生成



