EgoExoBench

Name: EgoExoBench
Creator: 上海人工智能实验室, 南京大学, 东京大学, 浙江大学, 复旦大学
Published: 2025-07-24 20:14:49
License: 暂无描述

arXiv2025-07-24 更新2025-07-26 收录

下载链接：

https://github.com/ayiyayi/EgoExoBench

下载链接

链接失效反馈

官方服务：

资源简介：

EgoExoBench是一个针对多模态大型语言模型（MLLMs）的第一人称（自我中心）和第三人称（外部中心）视频理解和推理的基准。该数据集由11个子任务组成，涵盖了超过7,300个问答对，分为三个核心挑战：语义对齐、视角关联和时间推理。这些数据来自于公开可用的数据集，经过严格的注释协议整理。EgoExoBench旨在评估模型在自我中心和外中心视角之间整合信息的能力，为研究具身代理和智能助手寻求类似人类的跨视角智能提供宝贵的资源。

EgoExoBench is a benchmark for first-person (egocentric) and third-person (exocentric) video understanding and reasoning for multimodal large language models (MLLMs). This dataset comprises 11 subtasks covering over 7,300 question-answer pairs, and falls under three core challenge categories: semantic alignment, perspective association, and temporal reasoning. All data are sourced from publicly available datasets and curated following strict annotation protocols. EgoExoBench is designed to evaluate models' capability to integrate information across egocentric and exocentric perspectives, serving as a valuable resource for research on embodied agents and intelligent assistants targeting human-like cross-perspective intelligence.

提供机构：

上海人工智能实验室, 南京大学, 东京大学, 浙江大学, 复旦大学

创建时间：

2025-07-24

原始信息汇总

EgoExoBench 数据集概述

基准测试概述

目的：评估多模态大语言模型（MLLMs）在跨视角视频理解中的表现。
规模：包含超过7,300个多选题，覆盖11个子任务。
关键维度：
- Ego-Exo Relation
- Ego-Exo View Transition
- Ego-Exo Temporal Reasoning

数据来源

基础数据集：
- Ego-Exo4D
- LEMMA
- EgoExoLearn
- TF2023
- EgoMe
- CVMHAT

数据准备

目录结构：

EgoExoBench/ └── data/ ├── CVMHAT/ │ └── data ├── Ego-Exo4D/ │ └── takes/ ├── EgoExoLearn/ ├── EgoMe/ ├── LEMMA/ └── TF2023/ └── data/
数据处理：
- 对CVMHAT和TF2023数据集使用边界框注释增强原始帧。
- 运行命令： shell python data/CVMHAT/tools/process_bbox.py python data/TF2023/tools/process_bbox.py
多选题下载：从指定链接下载并放置于MCQ/目录。

安装与评估

安装： shell git clone https://github.com/ayiyayi/EgoExoBench.git cd EgoExoBench
评估：基于VLMEvalKit，运行命令示例： shell torchrun --nproc-per-node=1 run.py --data EgoExoBench_MCQ --model Qwen2.5-VL-7B-Instruct-ForVideo python run.py --data EgoExoBench_MCQ --model Qwen2.5-VL-72B-Instruct-ForVideo

搜集汇总

数据集介绍

构建方式

EgoExoBench的构建基于六个公开可用的自我-第三人称视角配对视频数据集，通过严格的标注协议和多样化的问答对生成策略。具体流程包括视频收集、问答对构建和质量保证三个主要阶段。在视频收集阶段，研究人员从Ego-Exo4D、EgoExoLearn等数据集中选取了涵盖厨房、实验室、运动场等多种环境和活动的视频片段。问答对构建采用了三种策略：基于标注的模板生成、利用大语言模型生成以及人工精细标注，最终形成了4选1的多选题格式。为确保数据质量，团队实施了自动一致性检查和视觉基础过滤，剔除了仅凭文本即可回答的问题。

特点

EgoExoBench作为首个专注于跨视角视频理解的基准测试，具有三个显著特点：首先，它包含7,300多个多选题，覆盖语义对齐、视角转换和时间推理三个核心维度下的11个子任务，全面评估模型的多视角理解能力。其次，数据集来源多样，既包含同步录制的多视角视频，也有异步的演示-跟随视频，能够测试模型在不同场景下的适应能力。第三，问题设计注重跨视角推理的复杂性，要求模型能够关联不同视角中的语义信息、空间对应关系和时间序列，模拟人类的多视角认知过程。

使用方法

使用EgoExoBench时，研究人员可以采用零样本的多选题回答格式评估多模态大语言模型。基准测试提供了标准化的提示模板，要求模型根据问题主干和标记选项返回所选答案的字母。评估主要采用准确率作为指标，不进行微调或梯度更新以确保公平性。对于闭源模型可通过官方API进行评估，开源模型则建议使用计算资源（如配备80GB内存的A100显卡）进行实验。该基准既可用于全面评估模型的跨视角理解能力，也可通过分析模型在不同子任务上的表现，识别其特定能力的缺陷，为后续模型改进提供方向。

背景与挑战

背景概述

EgoExoBench是由南京大学、上海人工智能实验室等机构的研究团队于2025年推出的首个专注于第一人称（自我中心）与第三人称（外部中心）视频理解的多模态大语言模型（MLLMs）评测基准。该数据集基于公开可用的多视角视频数据构建，包含超过7,300个问答对，涵盖语义对齐、视角关联和时序推理三大核心挑战。研究团队旨在通过该基准探索人工智能系统如何像人类一样实现跨视角的知识迁移与联合推理，为具身智能体和智能助手的发展提供重要评估工具。

当前挑战

EgoExoBench面临的核心挑战体现在两个方面：领域问题层面，现有MLLMs在单视角任务表现优异，但在跨视角语义对齐（如识别不同视角下的相同实体）、空间对应关系建立（如自我中心穿戴者识别）和异步时序推理（如跨视角动作预测）等任务上表现显著下降；构建过程层面，需解决多源异构视频数据的时间同步、视角间语义标注一致性，以及确保问答对必须依赖视觉信息而非文本线索等难题。特别在时序推理任务中，如何构建具有明确因果关系的跨视角动作序列对数据质量提出了极高要求。

常用场景

经典使用场景

EgoExoBench作为首个专注于多模态大语言模型（MLLMs）跨视角视频理解的基准测试，其经典使用场景集中在评估模型对第一人称（自我中心）和第三人称（外部中心）视频流的联合推理能力。通过构建超过7300个涵盖语义对齐、视角转换和时序推理三大核心挑战的问答对，该数据集被广泛用于测试模型在烹饪、运动、维修等多样化场景中关联双视角语义信息、空间映射及事件序列预测的效能。例如，在医疗急救训练场景中，模型需通过外部视角的示范视频指导自我视角的操作步骤，模拟人类从观察学习到实践迁移的认知过程。

衍生相关工作

该数据集已催生多项跨视角理解领域的创新工作：InternVL3通过引入视角对齐预训练目标，在EgoExoBench的语义对齐任务上提升9.8%准确率；Qwen2.5-VL提出的时空注意力融合模块显著改善了动作预测性能；EgoGPT则探索了自我中心数据增强策略。此外，基于Benchmark发现的CoT提示失效现象，衍生出视觉-语言协同推理框架VCRF，将视角转换任务性能提升21.3%。这些工作共同推进了具身智能、人机协作等方向的发展。

数据集最近研究