EgoTeam

Name: EgoTeam
Creator: 卡尔斯鲁厄理工学院; 索非亚大学·INSAIT; 湖南大学; 牛津大学; 浙江大学; 苏黎世联邦理工学院; 蚂蚁集团
Published: 2026-05-18 22:04:26
License: 暂无描述

arXiv2026-05-18 更新2026-05-20 收录

下载链接：

https://github.com/KPeng9510/seeing-together.git

下载链接

链接失效反馈

官方服务：

资源简介：

EgoTeam数据集是由卡尔斯鲁厄理工学院、湖南大学等多机构联合创建的首个多机器人协作视觉问答数据集，旨在评估模型通过整合多个移动机器人的同步自我中心视频进行协作空间推理的能力。该数据集包含超过11.4万条问答对，覆盖19种问题类型、四个难度层级和三种团队规模，数据来源于Habitat和iGibson模拟器以及真实世界的四足机器人实验，总计约385.7小时的视频素材。数据创建过程涉及在模拟环境中部署多机器人团队生成探索轨迹与交互事件，并利用场景元数据和GPT-4o自动生成问答对，同时通过人工标注确保质量。该数据集主要应用于推动具身人工智能领域的发展，专门解决多机器人协同感知、跨视角关联、团队级场景理解以及动态空间推理等核心问题，为开发能够理解共享动态环境的智能系统提供了关键基准。

The EgoTeam dataset is the first multi-robot collaborative visual question answering (VQA) dataset jointly created by multiple institutions including Karlsruhe Institute of Technology (KIT) and Hunan University. It is designed to evaluate the capability of models to perform collaborative spatial reasoning by integrating synchronized egocentric videos from multiple mobile robots. Boasting over 114,000 question-answer pairs, the dataset covers 19 question types, four difficulty levels, and three team sizes. The data is sourced from Habitat and iGibson simulators as well as real-world quadruped robot experiments, with a total of approximately 385.7 hours of video footage. The dataset construction process involves deploying multi-robot teams in simulated environments to generate exploration trajectories and interaction events, automatically generating question-answer pairs using scene metadata and GPT-4o, and ensuring data quality through manual annotation. This dataset primarily serves to advance the field of embodied artificial intelligence (Embodied AI), specifically addressing core challenges including multi-robot collaborative perception, cross-view alignment, team-level scene understanding, and dynamic spatial reasoning, providing a critical benchmark for developing intelligent systems capable of understanding shared dynamic environments.

提供机构：

卡尔斯鲁厄理工学院; 索非亚大学·INSAIT; 湖南大学; 牛津大学; 浙江大学; 苏黎世联邦理工学院; 蚂蚁集团

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

EgoTeam数据集构建于Habitat和iGibson两大仿真平台，同时辅以真实世界场景中两台四足机器人的实验数据。在仿真环境中，研究者部署了由2至4台移动机器人组成的编队，执行覆盖式探索任务，并同步记录每台机器人的第一人称视角RGB-D视频、语义分割图、里程计命令及位姿真值。基于这些元数据，利用场景属性自动生成问答对，并通过GPT-4o进行表述优化。真实世界部分则通过运动捕捉系统获取机器人位姿信息，并辅以人工标注场景字幕作为问答生成的依据。最终，经四位标注员对验证集与测试集进行人工审核，确保答案的准确性，形成了包含约11.4万个问答对的大规模多机器人问答数据集。

特点

EgoTeam数据集具有多维度、多层次的结构化特点。它涵盖了空间感知、成对关系推理、场景级组合与机器人动作推理以及多机器人动态空间推理四个递进层级，共计19种问题类型。数据集支持团队规模为2、3和4台机器人的灵活配置，能够评估模型在不同团队尺度下的推理能力。此外，数据集包含了丰富的时空语义标注，如机器人间的相对位姿、物体可见性窗口、共享物体一致性以及团队信念更新等，旨在深入检验多模态大语言模型在多机器人协同场景中的空间、时间、可见性与协调推理能力。

使用方法

EgoTeam数据集适用于多机器人协同视觉问答任务的研究与评估。用户可将多台机器人同步采集的第一人称视频片段作为模型输入，配合相应的问题，要求模型从多个候选答案中选择正确选项。在模型训练阶段，可以利用仿真环境提供的机器人位姿真值作为监督信号，而在测试阶段则仅依赖机器人第一人称视频。研究者可采用多种基线方法，包括零样本评测、监督微调、检索增强生成以及关键帧选择等，与所提出的SP-CoR框架进行对比，以验证模型在多机器人协作空间推理上的表现。数据集的代码与评测基准均已公开，便于复现与扩展。

背景与挑战

背景概述

随着具身人工智能从单一智能体向多机器人协作系统的快速演进，如何让多个机器人通过共享自我中心视觉信息来构建统一的场景理解，已成为一个新兴且充满挑战的前沿课题。由卡尔斯鲁厄理工学院、湖南大学、苏黎世联邦理工学院等多所顶尖机构的研究人员于近年共同提出的EgoTeam数据集，正是在这一背景下应运而生。该数据集旨在解决多机器人协作动态空间推理这一核心研究问题，首次系统性地评估多模态大语言模型在整合不同机器人视角、处理机器人间空间关系以及协调团队行为方面的能力。EgoTeam包含超过114,000个问答对，覆盖19种问题类型、四个难度层级以及多种机器人团队规模，并同时提供了仿真环境与真实世界的测试数据，为多机器人自我中心视觉推理领域树立了重要的基准。

当前挑战

EgoTeam数据集所面临的挑战主要体现在两个层面。首先，在领域问题层面，现有视觉问答基准大多聚焦于单视角理解或固定的内外视角配对，缺乏对动态多机器人团队协同推理能力的评估；而多机器人自我中心视频中的视角冗余、信息冲突以及跨机器人空间关系建模，使得简单的视频拼接方法在扩展性和推理准确性上均存在根本性瓶颈。其次，在数据集构建过程中，研究团队需要同步采集多个机器人在复杂动态环境中的自我中心视频、位姿信息以及物体交互事件，并在仿真（Habitat、iGibson）与真实场景（四足机器人实验室）间保持数据的一致性与多样性；此外，还要确保问答对的高质量与无歧义性，为此团队采用了人工标注与GPT-4o自动生成相结合的方式，并通过多人交叉验证来提高标注可靠性，这显著增加了数据构建的复杂度与成本。

常用场景

经典使用场景

EgoTeam数据集专为多机器人协作式自我中心空间推理而设计，其经典使用场景聚焦于评估多模态大语言模型在同步自视视频流中的联合推理能力。通过模拟多机器人团队在动态环境中执行探索、物体推拉等任务，该数据集要求模型综合来自不同视角的时空信息，回答涵盖空间定位、相对位姿估计、互可见性判断及团队级行动识别等问题。这一场景精准刻画了真实世界中多机器人协同感知的核心挑战，成为衡量模型跨视角信息融合与协作推理能力的标杆。

实际应用

在实际应用中，EgoTeam所评测的多机器人协作推理能力可直接服务于仓库物流、灾难救援、基础设施巡检及家庭服务等场景。例如，在仓库环境中，机器人团队需通过整合各自视野判断货物遮挡关系并规划最优搬运路径；在灾害现场，多台机器人需实时共享残垣后的目标位置以协调搜救行动。该数据集通过模拟此类复杂协作任务，为验证机器人系统在部分可观测环境下的团队级情境感知能力提供了测试基石，从而加速协作式具身智能系统的落地部署。

衍生相关工作

EgoTeam直接催生了SP-CoR这一协作推理框架，其通过谱能量感知的多机器人帧采样、物理引导的跨视角融合及提示空间蒸馏三项关键技术，显著提升了模型在协作空间推理任务上的性能。此外，该数据集还推动了系列基线方法的衍生改进，包括基于检索增强生成的多视角证据选择、动态关键帧采样策略优化，以及面向团队规模泛化的推理框架设计。这些工作共同证明了引入协作归纳偏置对于多机器人自我中心推理的必要性，并为后续研究提供了丰富的对比基线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集