EgoTempo Dataset
收藏EgoTempo 数据集概述
数据集简介
EgoTempo 是一个用于评估多模态大语言模型(LLMs)在自我中心视频中时间理解能力的视频问答基准数据集。该数据集具有以下独特特征:
- 开放式的问答基准,专注于自我中心视频理解领域。
- 问题要求对视频的整体理解,答案不能仅从单个帧或常识知识中得出。
- 定义了10种不同的时间推理类别,每个类别包含相同数量的问题。
- 具有高度挑战性的时间推理基准,目前最好的闭源LLM准确率为40%,而人类表现达到63%。
数据集描述
EgoTempo 包含500个测试样本。问题-答案对通过Gemini公共API生成,并经过人工精心筛选。每个问题属于10个预定义类别之一,例如动作计数、未来动作预测、物体定位等。每个类别包含相同数量的问题。
视频来源
EgoTempo 基于 Ego4D 数据集 的视频构建。
标注格式
数据集存储在一个名为 egotempo_openQA.json 的JSON文件中,格式如下:
json { "info": { "date": "release date", "version": "current version" }, "annotations": [ // 每个样本的字典列表 { "question_id": "27470817-f803-45b4-b9d4-e754cb3196bc_368.4019995568589_403.56079044314106_0", "clip_id": "27470817-f803-45b4-b9d4-e754cb3196bc_368.4019995568589_403.56079044314106", "question_type": "object-specific action", "question": "What does the person pick up before rubbing their hands together?", "answer": "The oil remover spray." },... ] }
clip_id是视频剪辑的字符串标识符,从Ego4D中的原始长视频中裁剪而来。命名规则为{video_uid}_{start_timestamp}_{end_timestamp},其中{video_uid}是Ego4D中的原始视频标识符,{start_timestamp}和{end_timestamp}表示裁剪的时间窗口。question_id是问题的字符串标识符。命名规则为{clip_id}_{question_index},因为一个视频剪辑可能用于多个问题。
评估
EgoTempo 旨在进行零样本评估。评估指标的计算需要一个LLM作为自动评分器,将开放答案与收集的真实答案进行对比。评估代码将很快发布。
许可证
EgoTempo 数据集在 CC-BY 许可证 下发布。
引用
如果您在研究中使用了该数据集,请引用以下文献:
@inproceedings{plizzari2024egptempo, title={Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos}, author={Chiara Plizzari, Alessio Tonioni, Yongqin Xian, Ace Kulshrestha, Federico Tombari}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2025}, }
联系方式
如有关于数据集的问题或问题,请在本仓库中提交问题或联系作者。




