MA-EgoQA
收藏github2026-03-11 更新2026-03-15 收录
下载链接:
https://github.com/KangsanKim07/MA-EgoQA
下载链接
链接失效反馈官方服务:
资源简介:
MA-EgoQA是第一个针对多智能体长时自我中心视频流的问答基准数据集。随着智能体越来越多地协助我们的物理活动,理解多个智能体共同观察到的事件变得至关重要,但目前仍未被充分探索。MA-EgoQA基于EgoLife数据集构建,其中6个人共同生活了7天,佩戴自我中心摄像头,产生了266小时的多智能体视频。每个问题都需要在两个以上智能体的观察中进行推理。
MA-EgoQA is the first question answering benchmark dataset for multi-agent long-duration egocentric video streams. As intelligent agents increasingly assist with our physical activities, understanding events jointly observed by multiple agents has become critically important yet remains largely under-explored. MA-EgoQA is constructed based on the EgoLife dataset, in which 6 individuals cohabited for 7 days while wearing egocentric cameras, generating 266 hours of multi-agent video footage. Each question requires reasoning across observations from two or more agents.
创建时间:
2026-03-10
原始信息汇总
MA-EgoQA 数据集概述
数据集基本信息
- 数据集名称:MA-EgoQA (Multi-Agent Egocentric Video Question Answering)
- 数据集简介:首个用于多智能体长时程第一人称视角视频流问答的基准数据集。
- 核心目标:随着智能体越来越多地协助人类的物理活动,理解多个智能体共同观察到的事件变得至关重要,而这一领域此前尚未得到充分探索。
数据集构建与规模
- 基础数据源:基于 EgoLife 数据集构建。
- 参与者规模:6 人共同生活了 7 天,并佩戴第一人称视角相机。
- 视频总时长:共计 266 小时的多智能体视频。
- 核心要求:每个问题都需要对超过两个智能体的观察进行推理。
问题类别
MA-EgoQA 包含五个问题类别,具体如下:
| 类别 | 缩写 | 描述 |
|---|---|---|
| 社交互动 | SI | 跨视频流定位对话和群体行为 |
| 任务协调 | TC | 智能体如何分配角色并为共同目标协作 |
| 心理理论 | ToM | 推理智能体的信念、意图和心理状态 |
| 时序推理 | TR | 跨智能体时间线的事件并发性和顺序 |
| 环境交互 | EI | 跨智能体追踪分布式物体的使用情况 |
数据获取与使用
- 官方数据地址:https://huggingface.co/datasets/KangsanKim71/MA-EgoQA
- 下载命令:
huggingface-cli download KangsanKim71/MA-EgoQA --local-dir data --repo-type dataset
相关资源
- 项目主页:https://ma-egoqa.github.io
- 论文地址:https://arxiv.org/abs/2603.09827
- 代码仓库:https://github.com/KangsanKim07/MA-EgoQA
基准方法
- 基准方法名称:EgoMAS (Egocentric Multi-Agent System)
- 方法特点:一种无需训练的基线方法,旨在解决多智能体第一人称视角推理的独特挑战。
搜集汇总
数据集介绍

构建方式
在具身智能领域,多智能体协同感知与推理是前沿研究方向。MA-EgoQA数据集的构建基于EgoLife数据集,该数据集记录了六名参与者连续七天佩戴头戴式摄像机共同生活的场景,共采集了长达266小时的多视角第一人称视频。研究者从这些海量视频流中精心设计并标注了需要跨两个以上智能体视角进行推理的问题,形成了涵盖社交互动、任务协调、心智理论、时序推理和环境交互五大类别的问答对,从而构建起首个面向长时程、多智能体第一人称视频的问答基准。
特点
该数据集的核心特征在于其鲜明的多智能体与第一人称视角属性。所有问题均要求模型整合并推理来自多个独立智能体视觉观察的信息,模拟了真实世界中分布式协作与理解的复杂场景。数据集包含五大精心定义的问答类别,旨在系统性地评估模型在跨视角社交互动分析、协作任务理解、他者心智状态推断、分布式事件时序梳理以及环境对象追踪等多方面的综合认知能力,为推进具身多智能体系统的情境理解设立了严谨的评估标准。
使用方法
为便于研究者使用,数据集已托管于HuggingFace平台,可通过命令行工具便捷下载。官方提供了名为EgoMAS的基准方法,该方法无需训练,通过构建基于时间窗口的事件共享记忆库,并利用BM25算法对视频描述进行索引,实现跨智能体的动态信息检索与答案生成。用户克隆代码库并安装依赖后,可依次执行共享内存构建、描述索引与推理脚本,以复现基线结果或在此基础上开发新模型,推动多智能体第一人称视频理解的研究。
背景与挑战
背景概述
随着具身智能体在物理世界中日益广泛地辅助人类活动,理解多个智能体协同感知的复杂动态场景成为关键。MA-EgoQA 数据集于2026年由 Kangsan Kim 等研究人员提出,是首个针对多智能体长时程第一人称视频流进行问答推理的基准。该数据集构建于 EgoLife 数据集之上,采集了六位参与者共同生活七天的第一人称视角视频,总计达266小时,旨在推动对多智能体社会交互、任务协作及心智理论等核心认知问题的研究。这一开创性工作填补了多视角具身感知推理领域的空白,为开发能够理解分布式观察的智能系统奠定了重要基础。
当前挑战
MA-EgoQA 所针对的核心领域挑战在于多智能体第一人称视频问答,这要求模型能够跨越不同智能体的异构视觉观察,进行时空对齐、社会关系推理与分布式事件理解。具体而言,挑战包括:在复杂动态场景中精准定位跨视角的社会交互与对话;推断智能体在协作任务中的角色分配与意图;以及整合分散的时间线以重建事件的全貌。在数据集构建层面,挑战主要源于如何从海量、冗长的原始视频中提取具有语义连贯性的多智能体事件片段,并设计出能够系统评估上述多维推理能力的问答对,确保问题的复杂性与真实性。
常用场景
经典使用场景
在具身智能与人机协作的演进背景下,MA-EgoQA数据集为多智能体第一人称视频问答研究提供了关键基准。其最经典的使用场景在于评估模型对长时程、多视角的自我中心视频流进行联合推理的能力。研究者通常利用该数据集训练或测试模型,要求系统同时处理来自多个智能体的视觉序列,以回答涉及社会交互、任务协调等复杂问题,从而推动对分布式感知与协作理解的技术探索。
解决学术问题
该数据集主要解决了多智能体环境中事件理解的学术挑战,尤其针对传统单智能体视角在捕捉群体动态时的局限性。通过提供涵盖社会交互、心理理论、时序推理等五类问题的标注,它使研究者能够系统探究跨智能体的信念推断、并发事件对齐以及协作行为分析等核心问题。其意义在于首次建立了长时程多智能体自我中心视频的问答基准,为具身人工智能的群体认知研究奠定了数据基础。
衍生相关工作
基于MA-EgoQA,研究者已提出如EgoMAS等经典基线方法,该训练无关系统通过构建事件共享记忆与动态检索机制应对多智能体推理挑战。相关工作进一步推动了跨视角视频对齐、群体行为建模及分布式记忆网络等方向的发展。这些衍生研究不仅丰富了多模态推理的技术体系,也为后续涉及群体感知、协同决策的算法设计提供了重要参考框架。
以上内容由遇见数据集搜集并总结生成



