five

TeleEgo

收藏
Hugging Face2025-10-31 更新2025-11-01 收录
下载链接:
https://huggingface.co/datasets/David0219/TeleEgo
下载链接
链接失效反馈
官方服务:
资源简介:
TeleEgo是一个全面的omni基准,设计用于多人在多场景、多任务和多模态长期记忆推理的egocentric视频流。它反映了现实中的个人助理场景,其中连续的egocentric视频数据跨越数小时甚至数天收集,要求模型在记忆、理解和跨记忆推理上保持和推理。TeleEgo提供了多模态注释和细粒度的问答基准,用于评估模型的记忆、理解和跨记忆推理能力。
创建时间:
2025-10-26
原始信息汇总

TeleEgo数据集概述

数据集简介

TeleEgo是一个全面的全方位基准测试,专为以自我为中心的视频流中的多人、多场景、多任务和多模态长期记忆推理而设计。该基准测试反映了真实的个人助手场景,其中连续的自中心视频数据在数小时甚至数天内收集,要求模型维护和推理记忆、理解以及跨记忆推理。

数据集特点

  • 全方位覆盖:涵盖角色、场景、任务、模态和记忆视野的全方位评估
  • 多模态数据:视频、叙述和语音转录
  • 细粒度问答基准:3个认知维度,12个子类别

数据规模

  • 参与者:5人(性别平衡)
  • 场景
    • 工作与学习
    • 生活方式与日常
    • 社交活动
    • 外出与文化
  • 录制时长:每人3天(约14.4小时/人)
  • 模态
    • 以自我为中心的视频流
    • 语音和对话
    • 叙述和事件描述

基准任务

TeleEgo-QA沿三个主要维度评估模型:

1. 记忆

  • 短期/长期/超长期记忆
  • 实体追踪
  • 时间比较与间隔

2. 理解

  • 因果理解
  • 意图推断
  • 多步推理
  • 跨模态理解

3. 跨记忆推理

  • 跨时间因果关系
  • 跨实体关系
  • 时间链理解

每个问答实例包含:

  • 问题类型:单选、多选、二元、开放式

引用信息

bibtex @misc{yan2025teleegobenchmarkingegocentricai, title={TeleEgo: Benchmarking Egocentric AI Assistants in the Wild}, author={Jiaqi Yan and Ruilong Ren and Jingren Liu and Shuning Xu and Ling Wang and Yiheng Wang and Yun Wang and Long Zhang and Xiangyu Chen and Changzhi Sun and Jixiang Luo and Dell Zhang and Hao Sun and Chi Zhang and Xuelong Li}, year={2025}, eprint={2510.23981}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.23981}, }

许可证

  • 项目许可证:MIT许可证
  • 数据集使用限制:仅限研究使用

联系方式

如有任何问题,请联系:chxy95@gmail.com

搜集汇总
数据集介绍
main_image_url
构建方式
在构建TeleEgo数据集的过程中,研究团队采用了严谨的多模态数据采集策略,通过平衡性别的五名参与者在工作学习、生活常规、社交活动及外出文化四种日常场景中连续三天佩戴可穿戴设备进行录制,每位参与者平均产生约14.4小时的第一人称视角视频流。数据采集同步整合了语音对话、事件叙述与视觉内容,形成覆盖全场景的立体化数据基底,并通过专业标注流程转化为结构化基准测试资源。
特点
TeleEgo数据集的核心特征体现在其全维度覆盖能力,不仅囊括多角色、多场景的长期自我中心视频序列,更通过视频、语音与文本叙述的三模态标注体系构建丰富语义层次。其问答基准设计尤为精密,从记忆维持、情境理解到跨记忆推理三大认知维度展开,细分为短长期记忆追踪、因果推断与时空关联分析等十二个子类,形成对智能助手认知能力的立体化评估框架。
使用方法
该数据集的使用需遵循研究专用许可协议,开发者可通过加载多模态视频流与对应标注文件构建训练验证环境。基准测试支持单选、多选、二元判断及开放问答四种题型,评估时需重点考察模型在长时序记忆保持、跨模态语义对齐与复杂事件链推理等方面的表现,建议采用渐进式策略从单模态理解逐步扩展到多模态协同推理任务。
背景与挑战
背景概述
随着可穿戴计算技术的快速发展,以自我为中心的人工智能助手逐渐成为人机交互领域的前沿研究方向。TeleEgo数据集于2025年由跨机构研究团队共同构建,旨在解决多场景、多任务、多模态的长期记忆推理问题。该数据集通过采集五名参与者在工作学习、生活常规、社交活动及外出文化四类场景中的第一视角视频流,构建了涵盖14.4小时连续记录的沉浸式数据生态,为开发具备持续环境感知与跨时空推理能力的个性化智能助手奠定了实证基础。
当前挑战
在解决自我中心视频流理解领域问题时,TeleEgo面临三大核心挑战:其一是超长时序记忆建模,需在跨天级视频流中实现实体追踪与因果链重构;其二是多模态语义对齐,要求同步处理视觉、语音与文本叙述的异构信息;其三是认知维度覆盖,需同时兼顾短时记忆、意图推断与跨实体关系推理等十二个子任务。数据构建过程中则遭遇了连续采集设备续航限制、多参与者隐私保护协议制定,以及跨场景事件标注一致性维护等工程难题。
常用场景
经典使用场景
在可穿戴计算与第一人称视觉研究领域,TeleEgo数据集通过多角色、多场景的长期自我中心视频流,为构建具备记忆与推理能力的个性化AI助手提供了关键测试平台。其典型应用场景涵盖工作学习、生活起居、社交活动及外出文化四大日常维度,模型需在连续数日的视频数据中追踪实体、理解因果关系并进行跨时间推理,模拟真实个人助理的认知过程。
解决学术问题
该数据集有效应对了自我中心AI研究中长期记忆建模与多模态理解的学术挑战。通过设计记忆、理解与跨记忆推理三大认知维度,TeleEgo系统化解决了传统模型在超长时序数据中实体追踪失效、因果链断裂等难题,为评估模型在真实场景下的持续认知能力建立了严谨的量化标准,推动了具身智能理论框架的完善。
衍生相关工作
基于TeleEgo的基准特性,学术界衍生出多模态长视频理解、记忆增强网络等研究方向。相关经典工作如M3-Agent在视听记忆融合方面的探索,以及HourVideo针对长时序建模的架构创新,均受其多维度评估范式启发,进一步推动了终身学习智能体在复杂环境中的适应性研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作