five

TeleEgo

收藏
arXiv2025-10-28 更新2025-10-30 收录
下载链接:
https://teleEgo
下载链接
链接失效反馈
官方服务:
资源简介:
TeleEgo是一个用于评估第一人称视角人工智能助手在现实世界场景下能力的长期、流式、全模态基准数据集。数据集包含来自多个参与者的同步视频、音频和文本数据,每个参与者贡献超过14小时的记录。所有数据流都精确地对齐到一个统一的全球时间线上,并丰富了手动编辑的语音转录和视觉叙述,以确保高质量和语义清晰。TeleEgo定义了12个诊断子任务,涵盖三个核心能力:记忆(回忆过去的事件)、理解(解释当前时刻)和跨记忆推理(将遥远的事件联系起来)。它包含3291个人工验证的问答项目,跨越多种问题格式(单选、二选、多选和开放式问题),在流式设置下严格评估。TeleEgo提供了对实际人工智能发展的现实和全面的评估。

TeleEgo is a long-duration, streaming, fully multimodal benchmark dataset for evaluating the capabilities of first-person perspective AI assistants in real-world scenarios. The dataset contains synchronized video, audio, and text data from multiple participants, with each participant contributing over 14 hours of recordings. All data streams are precisely aligned to a unified global timeline, and augmented with manually curated speech transcripts and visual narratives to ensure high quality and semantic clarity. TeleEgo defines 12 diagnostic subtasks covering three core capabilities: memory (recalling past events), understanding (interpreting the current moment), and cross-memory reasoning (connecting distant events). It includes 3,291 manually verified question-answering items spanning multiple question formats (single-choice, binary-choice, multiple-choice, and open-ended questions), which are strictly evaluated in streaming settings. TeleEgo provides a realistic and comprehensive assessment of real-world artificial intelligence development.
提供机构:
中国电信人工智能研究院 (TeleAI)
创建时间:
2025-10-28
搜集汇总
数据集介绍
构建方式
TeleEgo数据集通过精心设计的采集协议构建,涵盖工作学习、生活日常、社交活动及外出文化四大领域。五名参与者在连续三天中佩戴第一人称摄像头,记录超过14小时的多模态数据,包括同步的自我中心视频、音频及文本。所有数据流均基于统一全局时间轴对齐,并辅以人工精校的语音转录和视觉叙述,确保语义清晰与高质量标注。
特点
TeleEgo作为首个长时程、流式、全模态的自我中心基准,其核心特点在于生态多样性与认知维度全覆盖。数据集包含3291个人工验证的问答项,覆盖记忆、理解及跨记忆推理三大能力轴,并细分为12项诊断子任务。其流式评估机制要求模型在严格时间窗口内响应,结合实时准确率与记忆持久时间双指标,全面衡量模型在真实场景中的时序响应与长期信息保持能力。
使用方法
使用TeleEgo时需遵循严格的流式协议,将多模态输入按全局时间轴连续播放。每个问答项关联特定时间戳与决策窗口,模型需在5秒内生成正确答案方计入实时准确率。记忆持久时间测试通过间隔性重查询评估信息保持时长。评估过程禁止重复证据输入,仅依赖持续流数据,从而精确模拟真实环境中自我中心助手的动态认知与实时决策需求。
背景与挑战
背景概述
随着人工智能技术的飞速发展,以第一人称视角运作的自我中心人工智能助手正逐步从受控实验环境迈向现实应用。TeleEgo数据集于2025年由中国科学院电信研究院(TeleAI)主导构建,旨在解决现有基准测试在评估实时多模态理解与长期记忆能力方面的局限性。该数据集通过五位参与者连续三天的可穿戴设备记录,采集超过14小时同步的自我中心视频、音频及文本数据,覆盖工作学习、生活常规、社交活动与文化出行四大领域。所有数据均基于统一时间轴对齐,并辅以人工精校的视觉叙述与语音转录,为研究真实场景下的认知计算提供了生态效度更高的评估基础。
当前挑战
TeleEgo针对的领域挑战在于突破传统基准测试对记忆、实时决策与多模态理解的割裂评估,要求模型在连续流式输入中同步实现事件回溯、当前场景解析与跨时间推理。构建过程中面临三重核心挑战:其一,需在动态视角变化与复杂环境噪声下保持多模态数据的高精度同步;其二,长期流式记录需平衡隐私保护与数据真实性的矛盾,通过人脸模糊与非参与者语音剔除等技术实现伦理合规;其三,标注体系需构建双重文本层(语音转录与视觉叙述)并确保其与视频时序的严格对齐,为生成3291个人工验证的问答对提供可审计的证据链。
常用场景
经典使用场景
在具身智能研究领域,TeleEgo数据集被广泛用于评估第一人称视角AI助手的实时认知能力。该数据集通过长达14小时的多模态同步数据流,模拟真实场景中智能体对连续视觉、听觉和语言输入的即时处理过程,典型应用包括测试模型在动态社交互动中对历史事件的回溯精度、对当前情境的语义解析速度,以及跨时间维度的因果推理连贯性。
解决学术问题
TeleEgo有效解决了现有基准中多模态能力评估碎片化的问题,填补了长时记忆与实时决策协同研究的空白。其设计的12项诊断性任务系统化衡量了模型在记忆持久性、情境理解与跨事件推理三大维度的表现,为构建具备时序一致性的认知架构提供了可量化的评估标准,推动了具身智能从静态任务向动态环境适应的理论突破。
衍生相关工作
基于TeleEgo的评估框架,研究者相继提出了多种增强型架构:例如融合时钟索引的记忆网络改进时序对齐能力,开发流式注意力机制以平衡实时响应与长期依赖建模,并衍生出针对跨模态实体跟踪的专用评估指标。这些工作显著推进了如MiniCPM-o等开源模型在流式多模态任务中的性能边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作