TeleEgo

github2025-10-30 更新2025-10-31 收录

下载链接：

https://github.com/TeleAI-UAGI/TeleEgo

下载链接

链接失效反馈

官方服务：

资源简介：

TeleEgo是一个全面的全方位基准，专为自我中心视频流中的多人员、多场景、多任务和多模态长期记忆推理而设计。它反映了真实的个人助手场景，其中连续收集数小时甚至数天的自我中心视频数据，要求模型维护和推理记忆、理解和跨记忆推理。TeleEgo提供来自5个角色在4个日常场景中的全方位多样化自我中心数据、多模态注释（视频、叙述和语音转录）以及细粒度的问答基准（3个认知维度，12个子类别）。

TeleEgo is a comprehensive omnidirectional benchmark tailored for multi-person, multi-scenario, multi-task, and multimodal long-term memory reasoning in egocentric video streams. It reflects real-world personal assistant scenarios, where egocentric video data is continuously collected over hours or even days, requiring models to maintain, reason over memories, as well as perform comprehension and cross-memory reasoning. TeleEgo provides omnidirectional and diverse egocentric data from 5 characters across 4 daily scenarios, multimodal annotations including video, narration, and speech transcripts, and a fine-grained question-answering benchmark covering 3 cognitive dimensions and 12 subcategories.

创建时间：

2025-10-20

原始信息汇总

TeleEgo 数据集概述

数据集简介

TeleEgo 是一个全面的全方位基准测试，专为以自我为中心的视频流中的多人、多场景、多任务和多模态长期记忆推理而设计。该基准测试反映了真实的个人助手场景，其中连续的自中心视频数据在数小时甚至数天内收集，要求模型维护和推理记忆、理解以及跨记忆推理。

数据集特点

全方位覆盖：涵盖角色、场景、任务、模态和记忆视野的全谱系
多模态数据：视频、叙述和语音转录
细粒度问答基准：3个认知维度，12个子类别

数据集规模

参与者：5人（性别平衡）
场景：
- 工作与学习
- 生活方式与日常
- 社交活动
- 外出与文化
录制时长：每人3天（约14.4小时/人）
模态：
- 以自我为中心的视频流
- 语音和对话
- 叙述和事件描述

基准测试任务

TeleEgo-QA 沿三个主要维度评估模型：

记忆

短期/长期/超长期记忆
实体追踪
时间比较与间隔

理解

因果理解
意图推断
多步推理
跨模态理解

跨记忆推理

跨时间因果关系
跨实体关系
时间链理解

每个问答实例包括：

问题类型：单选、多选、二元、开放性问题

数据集访问

由于隐私和许可限制，请在此处请求访问： https://huggingface.co/datasets/David0219/TeleEgo

引用

bibtex @misc{yan2025teleegobenchmarkingegocentricai, title={TeleEgo: Benchmarking Egocentric AI Assistants in the Wild}, author={Jiaqi Yan and Ruilong Ren and Jingren Liu and Shuning Xu and Ling Wang and Yiheng Wang and Yun Wang and Long Zhang and Xiangyu Chen and Changzhi Sun and Jixiang Luo and Dell Zhang and Hao Sun and Chi Zhang and Xuelong Li}, year={2025}, eprint={2510.23981}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.23981}, }

许可证

本项目采用 MIT 许可证。数据集使用受限于仅研究用途许可证。

搜集汇总

数据集介绍

构建方式

在可穿戴计算与第一人称视觉研究领域，TeleEgo数据集通过精心设计的实验范式构建而成。该数据集招募了5位性别平衡的参与者，在连续三天内以第一人称视角记录日常生活，每位参与者平均采集约14.4小时的视觉数据。数据采集覆盖工作学习、生活常规、社交活动及外出文化四大典型场景，同时采集多模态信息包括自我叙述、语音对话和事件描述，构建出真实自然的长时程自我中心数据流。

特点

TeleEgo的显著特征在于其全场景覆盖与多维认知评估体系。数据集囊括了从短时记忆到超长时记忆的完整记忆谱系，同时涵盖实体追踪、因果理解、意图推断等12个细粒度认知维度。其多模态特性不仅包含视觉流，还整合了语音转录与叙述文本，为跨模态推理提供了丰富基础。特别设计的跨记忆推理任务能够评估模型在跨时间因果链和跨实体关系上的理解能力。

使用方法

该数据集主要服务于第一人称AI助手的长时记忆与推理能力评估。研究者可通过官方提供的评估脚本对各类视觉语言模型进行系统性测试，涵盖GPT-4o、Qwen2.5-Omni等主流架构。使用前需通过Hugging Face平台提交访问申请，遵循研究专用许可协议。评估结果可提交至在线排行榜，促进模型在真实可穿戴场景下的持续优化与比较研究。

背景与挑战

背景概述

随着可穿戴设备的普及，第一人称视角视频分析逐渐成为计算机视觉领域的前沿研究方向。TeleEgo数据集于2025年由多机构研究团队联合发布，旨在构建面向真实场景的自我中心人工智能助手评估基准。该数据集通过采集五名参与者在工作学习、生活作息、社交活动及外出文化四大场景中的连续视频流，累计时长约72小时，覆盖多模态数据与细粒度认知标注。其核心研究聚焦于长期记忆维护与跨事件推理能力，为构建具备情境感知能力的个性化AI系统提供了关键数据支撑。

当前挑战

在解决自我中心视频长期记忆推理问题时，模型需应对跨场景实体追踪、多模态信息对齐、超长时序依赖建模等核心难题。数据构建过程中面临参与者隐私保护、多传感器数据同步、连续视频事件边界划分等实际挑战。此外，细粒度认知标注需要人工专家对视频内容进行多维度的语义解析，标注一致性保障与大规模数据处理亦构成显著的技术瓶颈。

常用场景

经典使用场景

在可穿戴计算领域，TeleEgo数据集为第一人称视角AI助手提供了全面的评估基准。该数据集通过采集5位参与者在工作学习、生活方式、社交活动和外出文化等多元场景下连续数日的自我中心视频流，构建了包含视频、语音和叙述文本的多模态长序列数据。研究人员利用这一数据集训练和测试模型在真实环境中的持续感知与记忆能力，特别关注模型对跨时间跨场景信息的整合与推理表现。

衍生相关工作

围绕TeleEgo数据集已催生多项创新研究，特别是在长序列视频理解和多模态记忆网络领域。研究者开发了专门针对超长时记忆建模的神经网络架构，改进了传统方法在跨时间推理任务上的局限性。同时，该数据集促进了多模态融合技术的发展，推动了视频、语音和文本信息的协同理解。这些工作不仅提升了模型在TeleEgo基准上的表现，更为自我中心计算领域的算法进步奠定了坚实基础。

数据集最近研究