EgoMem

Name: EgoMem
Creator: 华中科技大学人工智能与自动化学院多光谱信息智能处理技术国家重点实验室, 新加坡国立大学, 新加坡国立大学S-Lab实验室, 上海人工智能实验室
Published: 2025-10-14 19:59:19
License: 暂无描述

arXiv2025-10-14 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/jlongzuo/EgoMem

下载链接

链接失效反馈

官方服务：

资源简介：

EgoMem是一个针对长视频理解的基准数据集，旨在评估模型在长时间视频中对复杂事件的时序理解和精细细节感知的能力。该数据集基于EgoLife，包含42个视频和504个问答对，每个视频平均时长约为6.33小时。数据集通过六种问答设计对模型在第一人称日常生活记录中对复杂、随时间发展的事件的理解进行多维评估，并检测长视频中短暂出现的细观数字特征。

EgoMem is a benchmark dataset for long-form video understanding, designed to evaluate a model's capabilities in temporal comprehension of complex events and fine-grained detail perception within long-duration videos. Built upon EgoLife, this dataset comprises 42 videos and 504 question-answer pairs, with an average duration of approximately 6.33 hours per video. It conducts multi-dimensional assessments of a model's understanding of complex, time-evolving events in first-person daily life recordings via six question-answer paradigms, and detects transient fine-grained digital features that appear briefly in long-form videos.

提供机构：

华中科技大学人工智能与自动化学院多光谱信息智能处理技术国家重点实验室, 新加坡国立大学, 新加坡国立大学S-Lab实验室, 上海人工智能实验室

创建时间：

2025-10-14

搜集汇总

数据集介绍

构建方式

EgoMem基准数据集构建于EgoLife视频资源之上，通过系统化的人工标注流程实现。首先，标注者对每日长视频进行逐帧审阅，精确记录事件名称、起止时间及详细描述，形成完整的时间线事件序列。随后，基于事件序列设计六种跨时序理解任务的问题对，涵盖事件排序、时间判定、时序对齐等复杂推理维度。同时，针对瞬时视觉特征设计细粒度感知问题，确保每个视频均包含六组事件理解与六组细节感知问答对，最终形成包含42个视频、504组问答的高质量评估集。

特点

EgoMem数据集的核心特征体现在其极长时序跨度与多维度评估体系。视频平均时长达到6.33小时，模拟真实场景下的持续观察需求。通过六类精心设计的问题类型，系统评估模型对跨时段事件关联的理解能力，包括事件顺序推理、时间范围判定、上下文补全等复杂认知任务。特别引入的细节感知任务要求模型捕捉仅持续数秒的瞬时视觉特征，有效检验信息覆盖的完整性。所有问答均配备人工标注的客观证据，确保评估过程的严谨性与可解释性。

使用方法

该数据集适用于长视频理解模型的综合性能评估。研究者可将模型输出与标注的标准答案进行比对，采用准确率作为核心评估指标。在使用过程中，建议首先对模型进行事件序列理解能力测试，通过六类问题检验其跨时间推理效能；随后进行细节感知任务评估，验证模型对短暂视觉特征的捕捉精度。由于数据集的极长时序特性，需特别注意模型在处理超长上下文时的计算效率与信息保留能力，建议配合分层记忆机制等专用技术进行系统性验证。

背景与挑战

背景概述

EgoMem数据集由华中科技大学多谱信息智能处理技术全国重点实验室与上海人工智能实验室等机构于2025年联合构建，旨在推动超长视频理解领域的研究进程。该数据集基于EgoLife的第一人称日常记录视频资源，聚焦于模型对跨时间事件关联性与瞬时视觉细节的感知能力评估。其核心研究问题在于解决现有方法在极端长视频中难以兼顾时序连贯性与细粒度信息保留的缺陷，通过人工标注的504组问答对，系统化衡量模型对复杂事件演化逻辑与短暂视觉特征的捕捉精度，为长视频认知智能的发展提供了关键基准支撑。

当前挑战

EgoMem针对的长视频理解任务面临两大核心挑战：在领域问题层面，模型需同时处理跨时段事件推理与瞬时细节感知的矛盾需求，例如既要还原多事件时序逻辑又要识别仅出现数秒的物体特征；在构建过程中，人工标注需平衡事件连续性与细节覆盖度，极端视频长度（平均6.33小时）导致标注一致性维护困难，且需设计六类抗捷径推理的问答类型以避免评估偏差。此外，数据构建还需克服视频中动态视角变化与生活场景复杂度对标注规范设计的挑战。

常用场景

经典使用场景

在超长视频理解领域，EgoMem数据集作为评估模型对跨时间事件和瞬时细节感知能力的基准工具，其经典应用场景主要集中于测试模型在长达数小时的日常第一人称视角视频中捕捉复杂事件演进脉络的能力。通过精心设计的六类问答任务，该数据集能够系统评估模型对时间跨度内事件顺序、上下文关联及细节特征的解析水平，为研究界提供了衡量模型长视频理解性能的标准化平台。

衍生相关工作

基于EgoMem数据集的设计理念，研究界衍生出多类创新性工作。VideoLucy框架通过层次化记忆结构与回溯机制，实现了对长视频的渐进式细粒度解析；VideoTree采用自适应树状视频表示方法，提升了长视频的语义组织效率；MemVid通过记忆增强的检索机制强化了时序信息保持能力。这些工作共同推动了长视频理解从帧级分析向事件级理解的范式转变，为后续研究奠定了重要基础。

数据集最近研究