TeleEgo

github2025-10-29 更新2025-10-30 收录

下载链接：

https://github.com/Programmergg/TeleEgo

下载链接

链接失效反馈

官方服务：

资源简介：

TeleEgo是一个全面的全方位基准，专为第一人称视角视频流中的多人物、多场景、多任务和多模态长期记忆推理而设计。它反映了现实个人助手场景，其中连续的第一人称视角视频数据在数小时甚至数天内收集，要求模型维护和推理记忆、理解及跨记忆推理。TeleEgo提供来自5个角色跨越4个日常场景的全方位、多样化第一人称数据，包括多模态注释（视频、叙述和语音转录）和细粒度问答基准（3个认知维度，12个子类别）。

TeleEgo is a comprehensive and holistic benchmark designed for multi-person, multi-scenario, multi-task, and multimodal long-term memory reasoning in first-person view video streams. It mirrors real-world personal assistant scenarios, where continuous first-person video data is collected over hours or even days, requiring models to maintain, reason over, and comprehend memory, as well as perform cross-memory reasoning. TeleEgo provides comprehensive and diverse first-person data from 5 characters across 4 daily scenarios, including multimodal annotations (video, narration, and speech transcription) and fine-grained question-answering benchmarks covering 3 cognitive dimensions and 12 subcategories.

创建时间：

2025-10-20

原始信息汇总

TeleEgo数据集概述

数据集简介

TeleEgo是一个全面的全方位基准测试，专为自我中心视频流中的多人、多场景、多任务和多模态长期记忆推理而设计。该基准测试反映了真实的个人助手场景，在数小时甚至数天内收集连续的自我中心视频数据，要求模型维护和推理记忆、理解和跨记忆推理。

数据集特点

全方位覆盖：涵盖角色、场景、任务、模态和记忆视野的全方位评估
多模态数据：视频、叙述和语音转录
长期记忆推理：专注于真实自我中心场景中的诊断性记忆评估和跨事件推理

数据集规模

参与者：5人（性别平衡）
场景：
- 工作与学习
- 生活方式与日常
- 社交活动
- 外出与文化
录制时长：每人3天（约14.4小时/人）
模态：
- 自我中心视频流
- 语音和对话
- 叙述和事件描述

基准测试任务

TeleEgo-QA沿三个主要维度评估模型：

1. 记忆

短期/长期/超长期记忆
实体追踪
时间比较与间隔

2. 理解

因果理解
意图推断
多步推理
跨模态理解

3. 跨记忆推理

跨时间因果关系
跨实体关系
时间链理解

每个QA实例包含的问题类型：单选题、多选题、二元题、开放式问题

数据集访问

由于隐私和许可限制，请通过以下链接申请访问： https://huggingface.co/datasets/David0219/TeleEgo

引用

bibtex @misc{yan2025teleegobenchmarkingegocentricai, title={TeleEgo: Benchmarking Egocentric AI Assistants in the Wild}, author={Jiaqi Yan and Ruilong Ren and Jingren Liu and Shuning Xu and Ling Wang and Yiheng Wang and Yun Wang and Long Zhang and Xiangyu Chen and Changzhi Sun and Jixiang Luo and Dell Zhang and Hao Sun and Chi Zhang and Xuelong Li}, year={2025}, eprint={2510.23981}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.23981}, }

许可证

项目许可证：MIT许可证
数据集使用：仅限于研究用途

搜集汇总

数据集介绍

构建方式

在可穿戴计算与第一人称视觉研究领域，TeleEgo数据集的构建采用了多角色、多场景的长期追踪策略。该数据集招募了五位性别平衡的参与者，每位佩戴头戴式设备连续记录三天，每日平均采集约14.4小时的第一人称视频流。数据覆盖工作学习、生活作息、社交活动及外出文化四大日常场景，同步采集语音对话、事件叙述等多模态数据，并通过专业标注形成包含记忆追踪、因果理解等十二个子类别的细粒度问答基准。

特点

TeleEgo的突出特征在于其全场景覆盖性与多维认知评估体系。数据集囊括五种社会角色在真实环境中的长期行为轨迹，提供视频、语音、文本叙述三模态对齐的原始数据。其问答基准设计具备认知层次纵深，从短时记忆到跨时序推理的十二个细分维度，全面检验智能体在实体追踪、意图推断、跨模态理解等核心能力。这种多任务、多难度的评估框架为可穿戴AI助手的研究提供了立体化测评标准。

使用方法

研究者可通过官方指定的数据申请流程获取TeleEgo数据集资源。由于涉及隐私保护条款，需通过HuggingFace平台提交访问请求并获得授权。使用时可调用仓库内置的评估脚本，针对不同基座模型分别运行对应的测评模块。数据集采用研究专用许可协议，支持单选框、多选题、二元判断及开放式问答四种题型验证，为可穿戴场景下的长期记忆推理任务提供标准化测评环境。

背景与挑战

背景概述

随着可穿戴计算技术的蓬勃发展，第一人称视角智能助手逐渐成为人机交互研究的前沿领域。TeleEgo数据集于2025年由跨学科研究团队正式发布，旨在构建面向真实场景的综合性基准测试平台。该数据集通过五位参与者在工作学习、生活起居、社交活动与文化出行四类场景中持续三天的多模态数据采集，累计收录约72小时的第一人称视频流、语音对话及事件叙述，为探索长期记忆推理机制提供了前所未有的实验条件。其创新性地融合了多角色跨场景的生态效度，显著推动了具身智能在连续时空维度上的认知建模研究。

当前挑战

在解决领域问题层面，TeleEgo直面第一人称视频长期理解中的三大核心挑战：跨时空记忆的动态维护要求模型具备从秒级到天级的时序建模能力；多模态信息对齐需要解决视觉、语音与文本叙述间的语义鸿沟；复杂情境推理则涉及因果推断、意图识别与跨实体关系分析等高层认知任务。在数据构建过程中，研究团队需克服隐私保护与数据合规的伦理约束，设计兼顾生态效度与标注一致性的采集协议，并建立能处理超长视频序列的分布式存储架构，这些技术难题共同构成了该领域发展的关键瓶颈。

常用场景

经典使用场景

在可穿戴计算与第一人称视觉研究领域，TeleEgo数据集为评估智能助手在真实环境中的长期记忆与推理能力提供了基准平台。该数据集通过覆盖工作学习、生活作息、社交活动及外出文化等多元场景，模拟了用户连续数日佩戴设备产生的第一人称视频流。研究者可借助其多模态标注数据，系统测试模型在实体追踪、因果理解及跨时间推理等任务中的表现，从而推动具身智能系统的发展。

解决学术问题

TeleEgo有效应对了现有研究中对长时序多模态数据建模的三大挑战：其一，通过超长时记忆追踪机制解决了传统模型在跨时段事件关联中的信息衰减问题；其二，借助细粒度认知维度划分（如意图推断、多步推理）突破了单任务评估的局限性；其三，通过融合视觉、语音与文本的多模态对齐，为跨模态语义理解提供了验证基础。这些特性使其成为诊断记忆机制与推理能力的关键工具。

衍生相关工作

围绕TeleEgo的基准特性，学术界已涌现出多项创新研究。部分工作聚焦于改进时序Transformer架构，以增强模型对超长视频序列的语义压缩能力；另有研究通过引入层次化记忆网络，实现了对跨场景事件链的动态建模。这些衍生成果不仅推动了多模态大模型在具身智能领域的适配，也为构建具备终身学习能力的智能助手奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集