EgoTempo Dataset

github2025-03-19 更新2025-03-21 收录

下载链接：

https://github.com/google-research-datasets/egotempo

下载链接

链接失效反馈

官方服务：

资源简介：

EgoTempo是一个视频问答基准，用于评估多模态LLMs在自我中心视频中的时间理解能力。它具有以下独特特性：一个在自我中心视频理解领域的开放式问答基准；问题需要视频的整体视角，答案不能从单一帧或常识知识中得出；一个由10个不同时间推理类别组成的问题分类，每个类别有相同数量的问题；一个极具挑战性的时间推理基准，最佳闭源LLM的准确率为40%，而人类表现则为63%。

EgoTempo is a video question answering benchmark developed to evaluate the temporal comprehension abilities of multimodal large language models (LLMs) on egocentric videos. It has the following unique characteristics: 1) It is an open-ended question answering benchmark in the field of egocentric video understanding; 2) The questions require the holistic perspective of the entire video, and their answers cannot be inferred from a single frame or general common sense; 3) It includes a question taxonomy consisting of 10 distinct temporal reasoning categories, with an equal number of questions for each category; 4) It is an extremely challenging temporal reasoning benchmark, where the top-performing closed-source LLM achieves an accuracy of 40%, while human performance reaches 63%.

创建时间：

2025-03-08

原始信息汇总

EgoTempo 数据集概述

数据集简介

EgoTempo 是一个用于评估多模态大语言模型（LLMs）在自我中心视频中时间理解能力的视频问答基准数据集。该数据集具有以下独特特征：

开放式的问答基准，专注于自我中心视频理解领域。
问题要求对视频的整体理解，答案不能仅从单个帧或常识知识中得出。
定义了10种不同的时间推理类别，每个类别包含相同数量的问题。
具有高度挑战性的时间推理基准，目前最好的闭源LLM准确率为40%，而人类表现达到63%。

数据集描述

EgoTempo 包含500个测试样本。问题-答案对通过Gemini公共API生成，并经过人工精心筛选。每个问题属于10个预定义类别之一，例如动作计数、未来动作预测、物体定位等。每个类别包含相同数量的问题。

视频来源

EgoTempo 基于 Ego4D 数据集的视频构建。

标注格式

数据集存储在一个名为 egotempo_openQA.json 的JSON文件中，格式如下：

json { "info": { "date": "release date", "version": "current version" }, "annotations": [ // 每个样本的字典列表 { "question_id": "27470817-f803-45b4-b9d4-e754cb3196bc_368.4019995568589_403.56079044314106_0", "clip_id": "27470817-f803-45b4-b9d4-e754cb3196bc_368.4019995568589_403.56079044314106", "question_type": "object-specific action", "question": "What does the person pick up before rubbing their hands together?", "answer": "The oil remover spray." },... ] }

clip_id 是视频剪辑的字符串标识符，从Ego4D中的原始长视频中裁剪而来。命名规则为 {video_uid}_{start_timestamp}_{end_timestamp}，其中 {video_uid} 是Ego4D中的原始视频标识符，{start_timestamp} 和 {end_timestamp} 表示裁剪的时间窗口。
question_id 是问题的字符串标识符。命名规则为 {clip_id}_{question_index}，因为一个视频剪辑可能用于多个问题。

评估

EgoTempo 旨在进行零样本评估。评估指标的计算需要一个LLM作为自动评分器，将开放答案与收集的真实答案进行对比。评估代码将很快发布。

许可证

EgoTempo 数据集在 CC-BY 许可证下发布。

引用

如果您在研究中使用了该数据集，请引用以下文献：

@inproceedings{plizzari2024egptempo, title={Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos}, author={Chiara Plizzari, Alessio Tonioni, Yongqin Xian, Ace Kulshrestha, Federico Tombari}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2025}, }

联系方式

如有关于数据集的问题或问题，请在本仓库中提交问题或联系作者。

搜集汇总

数据集介绍

构建方式

EgoTempo数据集的构建基于Ego4D数据集中的视频片段，通过Gemini公共API生成问题-答案对，并经过人工精心筛选和标注。每个问题均属于10个预定义的时间推理类别之一，如动作计数、未来动作预测、物体定位等。数据集的标注信息以JSON格式存储，包含视频片段标识符、问题类型、问题内容及标准答案。

特点

EgoTempo数据集以其独特的时间推理挑战性著称，专注于评估多模态大语言模型在自我中心视频中的时间理解能力。其问题设计强调对视频的整体理解，而非单一帧或常识知识。数据集包含500个测试样本，涵盖10个时间推理类别，每个类别的问题数量均等，且当前最佳闭源模型的准确率仅为40%，远低于人类表现的63%。

使用方法

EgoTempo数据集适用于零样本评估，用户可通过加载JSON文件获取问题-答案对，并利用多模态大语言模型进行推理和答案生成。评估时，模型生成的开放答案将与标注的参考答案进行对比，以计算准确率。未来将发布评估代码，便于用户进行标准化测试。

背景与挑战

背景概述

EgoTempo数据集由Chiara Plizzari等研究人员于2025年创建，旨在评估多模态大语言模型（LLMs）在自我中心视频中的时间理解能力。该数据集基于Ego4D数据集中的视频构建，包含500个测试样本，每个样本均包含开放式问答对，涵盖10种不同的时间推理类别。EgoTempo的发布标志着自我中心视频理解领域的一个重要里程碑，特别是在时间推理任务上，为多模态LLMs的性能评估提供了新的基准。该数据集的研究成果已在CVPR 2025会议上发表，展示了其在计算机视觉与自然语言处理交叉领域的重要影响力。

当前挑战

EgoTempo数据集的核心挑战在于其高度复杂的时间推理任务。每个问题要求模型对视频内容进行全局理解，而非依赖单一帧或常识知识。这种设计使得现有封闭源LLMs的准确率仅为40%，远低于人类表现的63%。此外，数据集的构建过程也面临诸多挑战，包括如何从Ego4D视频中裁剪出具有代表性的片段，以及如何通过Gemini API生成高质量的问题-答案对并进行人工校验。这些挑战不仅考验了数据集的构建技术，也为未来多模态LLMs在时间推理任务上的改进提供了明确的方向。

常用场景

经典使用场景

EgoTempo数据集主要用于评估多模态大语言模型在自我中心视频中的时间理解能力。通过开放式的问答形式，数据集要求模型不仅能够理解视频中的单一帧内容，还需具备对视频整体时间线的综合把握能力。这种设计使得EgoTempo成为衡量模型在复杂时间推理任务中表现的重要工具。

解决学术问题

EgoTempo数据集解决了多模态大语言模型在时间推理任务中的性能评估问题。通过提供10种不同的时间推理类别，数据集能够全面测试模型在动作计数、未来动作预测、物体定位等方面的能力。这种细致的分类不仅帮助研究者识别模型的弱点，还为改进模型的时间理解能力提供了明确的方向。

衍生相关工作

EgoTempo数据集的发布促进了多模态大语言模型在时间推理领域的研究。基于该数据集，研究者们开发了多种改进模型，如增强时间序列分析能力的神经网络架构和更高效的视频理解算法。这些工作不仅推动了学术界对时间推理的理解，也为工业界提供了新的技术解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集