five

EgoMemReason

收藏
github2026-05-12 更新2026-05-14 收录
下载链接:
https://github.com/Ziyang412/EgoMemReason
下载链接
链接失效反馈
官方服务:
资源简介:
EgoMemReason是一个全面的基准数据集,用于系统评估通过记忆驱动推理的周长度第一人称视频理解。它针对三种互补的记忆类型:实体记忆(跟踪对象状态在几天内的演变)、事件记忆(回忆和排序相隔数小时或数天的活动)和行为记忆(从稀疏、重复的观察中抽象出重复模式)。数据集包含500个多项选择题,覆盖6个核心挑战,平均每个问题有5.1个证据片段和25.9小时的记忆回溯时间。

EgoMemReason is a comprehensive benchmark dataset for systematically evaluating week-long first-person video understanding via memory-driven reasoning. It targets three complementary memory categories: Entity Memory (tracking the evolution of object states across multiple days), Event Memory (recalling and temporally ordering activities separated by hours or days), and Behavioral Memory (abstracting recurring patterns from sparse and repeated observations). The dataset includes 500 multiple-choice questions covering 6 core challenges, with an average of 5.1 evidence segments per question and an average memory retrieval duration of 25.9 hours.
创建时间:
2026-05-11
原始信息汇总

数据集概述

EgoMemReason 是一个专注于长时程第一人称视频理解的记忆驱动推理基准,旨在评估模型在超过一天甚至一周的连续视觉经验中进行推理的能力。该基准由 UNC Chapel Hill 和 NTU Singapore 的研究团队共同提出。

核心挑战

该基准针对三种互补的记忆类型设计了 500 道多选题,覆盖六大核心挑战:

  • 记忆类型
    • 实体记忆:追踪物体状态在数天内的变化。
    • 事件记忆:回忆和排序相隔数小时或数天的活动。
    • 行为记忆:从稀疏、重复的观察中抽象出规律模式。
  • 核心挑战:包括追踪(Tracking)计数(Counting)排序(Ordering)关联(Linking)空间(Spatial)活动(Activity) 六大类别。

数据规模与特点

  • 问题数量:500 道多选题。
  • 证据片段:平均每个问题包含 5.1 个证据片段。
  • 记忆回溯距离:平均需要回溯 25.9 小时之前的视频内容。
  • 这两项指标是此前最强周级别基准的 2 倍,极大地提升了长时程视频理解的难度。

主要评测结果

论文评估了 17 个系统,包括通用多模态大模型、视频专用多模态大模型和智能体视频框架。最强模型(Gemini-3-Flash)的总体准确率仅为 39.6%,表明长时程记忆推理任务远未被解决。

以下是部分代表性模型的总体表现(总体准确率,%):

  • 通用多模态大模型
    • InternVL3.5-8B: 28.0
    • Qwen-3-VL-32B: 36.8
    • Gemini-3-Flash: 39.6 (当前最佳)
  • 视频专用多模态大模型
    • LongVA-7B: 20.6
    • Molmo2-8B: 33.2
  • 智能体视频框架
    • SiLVR: 22.4
    • Ego-R1: 25.8
    • AVP (Ours): 34.0

数据获取与使用

项目结构

仓库结构清晰,便于复现和新方法的集成:

  • data/: 数据集获取和格式说明。
  • evaluation/: 包含多种模型(如 Gemini、Qwen3VL、GPT-5 等)的评测脚本。
  • agentic/: 包含智能体视频框架(如 AVP、Ego-R1、SiLVR)的实现代码。

引用

bibtex @article{wang2026egomemreason, title = {EgoMemReason: A Memory-driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding}, author = {Wang, Ziyang and Zhang, Yue and Yu, Shoubin and Zhang, Ce and Zhao, Zengqi and Yoon, Jaehong and Lee, Hyunji and Bertasius, Gedas and Bansal, Mohit}, year = {2026}, journal = {arXiv preprint} }

许可

  • 仓库代码:采用 MIT 许可。
  • 底层视频数据(EgoLife):需遵循其独立的许可协议。
搜集汇总
数据集介绍
main_image_url
构建方式
EgoMemReason的构建建立在EgoLife长期自我中心视频数据集之上,聚焦于记忆驱动的推理挑战。研究团队从连续数日至一周的自我中心视频中,精心筛选并标注了500道多项选择题,覆盖六大核心任务:物体状态追踪、数量计数、时间顺序判断、事件关联、空间关系推理及行为模式归纳。每道题目平均关联5.1个证据片段,回溯时长跨度达25.9小时,远超此前同类基准。通过多维度标注体系,数据集系统性地评估了三种互补记忆类型——实体记忆、事件记忆与行为记忆,构建了一个极具挑战性的长时域视频理解评测框架。
特点
该数据集最鲜明的特征在于其对长期自我中心视频中记忆推理能力的极致考验。与现有基准相比,EgoMemReason在证据片段数与回溯时长两项指标上均实现两倍提升,迫使模型必须在跨越数日乃至数周的视频中,从稀疏分布的关键信息里完成信息积累、状态回忆与模式抽象。数据集设计巧妙地区分了实体、事件与行为三种记忆类型,并细分为追踪、计数、排序、关联、空间与活动六大挑战,全面覆盖了现实世界中智能眼镜与具身智能体所需的视觉记忆能力谱系。
使用方法
使用者可通过Hugging Face平台直接获取包含500道题目的标注文件,并需同步获取EgoLife视频帧数据作为视觉输入。数据集的评估体系构建完善,支持从通用多模态大模型到视频专用模型以及智能体框架等十余种系统的直接评测。每个系统目录配有独立的推理脚本,使用者只需配置相应环境与API密钥即可运行。预测结果可通过简洁的格式转换提交至公开排行榜,系统将自动计算各任务子分数与总体准确率,便于研究者横向对比不同方法的记忆推理性能。
背景与挑战
背景概述
随着增强现实眼镜、具身智能体以及全天候生活记录系统等下一代视觉助手的兴起,对超长时域自我中心视频的理解成为迫切需求。在此背景下,北卡罗来纳大学教堂山分校与南洋理工大学的研究团队于2026年共同提出了EgoMemReason基准。该基准聚焦于跨越数天乃至数周的自我中心视频理解,核心研究问题是评估模型在极长视频中依赖记忆进行推理的能力,具体涵盖实体记忆、事件记忆与行为记忆三大维度。通过包含500道多项选择题、平均每问需回溯25.9小时视频证据的设计,EgoMemReason显著超越了以往基准的两倍规模,为长时域视频理解研究树立了新的标杆,对推动视觉助手在复杂真实场景中的应用具有重要影响力。
当前挑战
EgoMemReason基准所解决的领域挑战在于:现有视觉模型在理解持续数天至数周的自我中心视频时,难以从稀疏分布于长时间跨度中的信息中提取关键线索并进行记忆驱动的推理,包括物体状态演化追踪、事件时序回忆与行为模式抽象。在构建过程中,研究团队面临的核心挑战包括如何确保问题覆盖六大推理任务(追踪、计数、排序、关联、空间与活动)的均衡性,设计平均每问需回溯25.9小时视频的证据片段,以及避免模型通过捷径或局部线索而非真实记忆去回答问题。此外,基于EgoLife数据集的标注质量控制与跨天视频片段的精准对齐也构成了显著的技术难题。
常用场景
经典使用场景
在长期第一人称视频理解领域,EgoMemReason基准数据集被广泛用于评估模型在多日连续视觉体验中的记忆驱动推理能力。该数据集通过实体记忆、事件记忆和行为记忆三大维度,系统性地考察模型对对象状态演化、跨时段事件排序以及重复行为模式抽象等复杂任务的掌握程度。经典使用场景包括物体跟踪与计数、时序关系推理、空间定位以及活动识别等六个核心挑战,每个问题平均需要回溯25.9小时的视频证据,这为衡量模型在稀疏分布信息下的长期理解能力提供了严苛的测试平台。
实际应用
该数据集的实践价值直接映射至下一代视觉智能设备的核心需求,包括智能眼镜、具身代理和全天候生活记录系统。在这些实际场景中,设备需要持续理解用户数日乃至数周的视觉经历,例如在智能助手应用中精准回忆特定物品的存放位置变化,或在机器人巡检任务中识别重复出现的异常行为模式。EgoMemReason为研发能够有效处理超长生命周期信息的视觉系统提供了标准化的测试范式,其评测体系可指导企业界优化模型在长期环境感知、历史状态检索和规律性事件预测等关键功能上的性能表现。
衍生相关工作
围绕EgoMemReason基准已催生了一系列经典衍生工作,其中最具代表性的是其提出的Agentic Video Pipeline(AVP)作为基线系统,该管道通过多阶段智能代理协同实现了34.0%的整体准确率,为后端模型研究提供了有效参照。此外,Ego-R1推理代理、SiLVR框架和WorldMM检索推理系统等也在该基准上进行了严格评测,推动了面向超长视频的记忆增强架构设计。这些工作不仅印证了该基准对模型记忆缺陷的敏锐探测能力,更启发了大量后续研究聚焦于稀疏时间注意机制、分层记忆索引和跨模态循环推理等前沿方向,形成了活跃的学术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作