EgoTempo

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

https://github.com/google-researchdatasets/egotempo.git

下载链接

链接失效反馈

官方服务：

资源简介：

EgoTempo是一个专为评估 egocentric 视频中时间理解而设计的自由形式视频问答数据集。该数据集由谷歌公司创建，包含500个视频实例，涵盖了40个独特的场景。EgoTempo数据集强调需要整合整个视频信息的任务，以确保模型需要依赖时间模式而不是静态线索或预先存在的知识。该数据集旨在推动多模态大型语言模型在 egocentric 视频数据中的时间理解研究。

EgoTempo is a free-form video question answering dataset specifically designed for evaluating temporal understanding in egocentric videos. Created by Google, this dataset includes 500 video instances spanning 40 distinct scenarios. EgoTempo emphasizes tasks that require integrating full video information, ensuring that models must rely on temporal patterns rather than static cues or pre-existing knowledge. This dataset aims to advance research on temporal understanding of egocentric video data using multimodal large language models.

提供机构：

谷歌

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

EgoTempo数据集的构建过程结合了自动化流程与人工审核，确保了数据的高质量。首先，从Ego4D数据集中提取视频片段，并通过自动化的方式生成问题-答案对。随后，通过人工审核确保每个问题都需要跨帧的时序信息来回答，避免仅依赖单帧或常识推理。最终，数据集包含500个问题-答案对，涵盖了10种不同的时序推理任务，确保模型必须理解视频中的时序动态才能正确回答问题。

特点

EgoTempo数据集的特点在于其专注于评估多模态大语言模型（MLLMs）在自我中心视频中的时序理解能力。与现有的视频问答数据集不同，EgoTempo的问题设计强调跨帧的时序推理，避免仅依赖单帧或常识知识。数据集包含10种任务类别，涵盖了动作序列、对象计数、未来动作预测等复杂时序推理任务，确保模型必须理解视频中的时序动态才能正确回答问题。此外，EgoTempo的难度显著高于现有数据集，模型在单帧输入下的准确率仅为9%，而在多帧输入下也仅提升至39%，突显了其挑战性。

使用方法

EgoTempo数据集的使用方法主要围绕评估多模态大语言模型（MLLMs）在自我中心视频中的时序理解能力。研究人员可以通过该数据集测试模型在不同帧数输入下的表现，评估其在时序推理任务中的准确性。具体使用步骤包括：首先，将视频片段与对应的问题输入模型，生成预测答案；其次，通过人工或自动化评估工具对比预测答案与真实答案，计算模型的准确率。EgoTempo的开放性问题形式（OpenQA）避免了封闭式问题（CloseQA）可能带来的偏差，确保模型必须依赖视频内容进行推理。

背景与挑战

背景概述

EgoTempo数据集由Google与都灵理工大学的研究团队于2025年推出，旨在评估多模态大语言模型（MLLMs）在自我中心视频中的时间理解能力。该数据集的核心研究问题在于如何通过视频问答（VideoQA）任务，推动模型对视频中复杂时间动态的理解。EgoTempo的创建背景源于现有自我中心视频数据集在时间推理任务上的局限性，尤其是许多问题仅需单帧或常识推理即可回答，未能充分挑战模型的时间理解能力。EgoTempo通过引入10种不同的时间推理任务，要求模型整合整个视频的信息，从而推动相关领域的研究进展。

当前挑战

EgoTempo数据集面临的挑战主要体现在两个方面。首先，在领域问题上，现有视频问答数据集往往依赖单帧理解或常识推理，无法有效评估模型的时间推理能力。EgoTempo通过设计复杂的时间推理任务，如动作序列、时间事件排序等，要求模型深入理解视频中的时间动态，这对当前的多模态大语言模型提出了更高的要求。其次，在数据集构建过程中，如何确保问题必须依赖多帧信息而非单帧或常识推理，是一个重要的挑战。EgoTempo通过半自动化的问答生成流程，结合人工审核，确保问题的复杂性和时间依赖性，从而构建了一个更具挑战性的数据集。

常用场景

经典使用场景

EgoTempo数据集主要用于评估多模态大语言模型（MLLMs）在自我中心视频中的时间理解能力。通过设计复杂的任务，如动作序列识别、未来动作预测和对象计数等，EgoTempo要求模型整合整个视频中的信息，而非依赖单帧或常识推理。这使得EgoTempo成为评估模型在时间推理能力上的重要基准。

实际应用

EgoTempo的实际应用场景广泛，尤其是在需要精细时间理解的领域，如智能家居、机器人辅助和虚拟现实。例如，在智能家居中，模型可以通过理解用户的行为序列来预测下一步操作，从而提供更智能的服务。此外，EgoTempo还可用于开发更高效的视频监控系统，帮助识别复杂的时间相关事件。

衍生相关工作

EgoTempo的推出激发了多项相关研究，特别是在多模态大语言模型的时间推理能力提升方面。例如，基于EgoTempo的研究工作探索了如何通过增加帧数或改进模型架构来提升时间推理性能。此外，EgoTempo还推动了其他时间推理数据集的发展，如EgoSchema和EgoTaskQA的改进版本，进一步丰富了该领域的研究资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集