EASG-Bench

Name: EASG-Bench
Creator: 卡塔尼亚大学, 英特尔实验室
Published: 2025-06-06 14:33:16
License: 暂无描述

arXiv2025-06-06 更新2025-06-10 收录

下载链接：

https://github.com/fpv-iplab/EASG-bench

下载链接

链接失效反馈

官方服务：

资源简介：

EASG-Bench是一个基于自我中心视频问答的基准数据集，包含1807个问答对，涵盖了五个类别。该数据集利用自我中心动作场景图（EASG）的注释，生成了时空定位的问答对，支持基于对象边界框的问答和语言中性评估。数据集的创建过程包括生成问答对、过滤重复和通用问答对。EASG-Bench旨在解决视频理解和问答任务中的时空推理问题。

EASG-Bench is a benchmark dataset for egocentric video question answering, consisting of 1,807 question-answer pairs across five categories. This dataset leverages annotations from the Egocentric Action Scene Graph (EASG) to generate spatiotemporally grounded question-answer pairs, supporting object bounding box-based question answering and language-neutral evaluation. The dataset creation process includes generating question-answer pairs, as well as filtering out duplicate and generic ones. EASG-Bench is designed to address spatiotemporal reasoning challenges in video understanding and question answering tasks.

提供机构：

卡塔尼亚大学, 英特尔实验室

创建时间：

2025-06-06

原始信息汇总

EASG-Bench数据集概述

数据集基本信息

名称: EASG-Bench
类型: 视频问答基准数据集
领域: 第一人称视角（egocentric）视频理解
主要贡献者: Ivan Rodin, Tz-Ying Wu, Kyle Min等（来自University of Catania和Intel Labs）
论文链接: https://arxiv.org/pdf/2506.05787

数据集特点

数据内容: 包含基于时空动态场景图的问答对，捕捉演员、动作和对象之间的复杂关系
研究重点: 长期上下文视频理解，特别关注时间顺序问题
评估对象: 语言模型和视频大语言模型（video-LLMs）

数据集构建

构建方法: 提供generate_QA.ipynb脚本用于创建基准
数据来源: 使用Ego4D注释中的时间戳叙述
预处理数据: 提供clilp_narrations.json文件

评估框架

评估机制: 采用LLM-as-a-Judge机制
主要评估脚本: eval_llama_review.py
评估所需文件:
- 上下文信息: clilp_narrations.json
- 评估规则: rule.txt
- 问答对: JSON格式输入文件
- 输出结果: JSON格式输出文件
- 分数缩放因子: scale.json
运行方式: 通过eval_llama.sh脚本执行评估

引用格式

bibtex @article{rodin2025easg, title={EASG-Bench: Video Q&A Benchmark with Egocentric Action Scene Graphs}, author={Rodin, Ivan and Wu, Tz-Ying and Min, Kyle and Sridhar, Sharath Nittur and Furnari, Antonino and Tripathi, Subarna and Farinella, Giovanni Maria}, journal={arXiv preprint}, year={2025}, }

搜集汇总

数据集介绍

构建方式

EASG-Bench数据集的构建基于自我中心动作场景图（EASG）技术，通过结构化表示视频中演员、动作和对象之间的复杂关系，系统性地生成了包含1,807个问答对的数据集。构建过程中，研究团队利用Llama-3.1-8B-Instruct模型，确保每个问题都能通过直接观察视频内容得到明确回答，并通过多轮迭代和多数投票机制过滤不符合标准的问题，从而保证数据的高质量和准确性。

特点

EASG-Bench数据集以其时空双重锚定特性脱颖而出，每个问题均与视频中的特定时空场景相关联，涵盖目的、直接对象、间接对象及时间顺序（前后关系）等五大类别。数据集包含221个来自Ego4D数据集的视频片段，其中三分之一的问题聚焦于对象功能，三分之一关注对象操作，剩余部分则涉及动作顺序推理，全面覆盖了自我中心视频理解的多维度需求。

使用方法

该数据集适用于评估语言模型和视频大语言模型（Video-LLMs）在自我中心视频问答任务中的表现。使用时可结合视频字幕与时间戳作为上下文信息，通过LLM-as-a-judge机制对模型生成的答案进行多维度评分（如帮助性、相关性、准确性等）。针对时间顺序类问题，采用思维链提示策略分阶段定位动作并推理前后事件，显著提升模型在时序理解任务上的表现。

背景与挑战

背景概述

EASG-Bench是由意大利卡塔尼亚大学与英特尔实验室联合团队于2025年提出的新型第一人称视频问答基准数据集。该数据集基于Egocentric Action Scene Graphs（EASG）构建，包含1,807个时空锚定的问答对，覆盖目的性询问、直接/间接对象操作及事件时序推理五大类别。其创新性体现在将场景图的结构化表征与视频理解任务相结合，通过221段Ego4D未剪辑视频构建了支持空间定位和时序推理的评估框架。该数据集的发布填补了长时程视频理解领域缺乏细粒度时空推理基准的空白，为多模态大语言模型的时空推理能力提供了标准化测评工具。

当前挑战

EASG-Bench面临的核心挑战体现在两个维度：在领域问题层面，现有视频大语言模型对时序推理（特别是'之前/之后'类问题）的准确率显著低于纯语言模型，暴露出多模态融合时时序建模能力的不足；在构建技术层面，需解决从动态场景图生成无歧义问答对的难题，包括通过五轮多数投票机制过滤LLM生成的重复问题，以及设计语言中立评估框架以避免对象名称偏差。此外，开放性问题评分需依赖LLM-as-a-judge机制，其评分校准问题也构成了方法论挑战。

常用场景

经典使用场景

EASG-Bench作为首个基于自我中心动作场景图（EASG）构建的视频问答基准，其经典使用场景集中在评估多模态大语言模型对长视频时空关系的理解能力。通过1,807个涵盖目的性、直接/间接对象操作及时序逻辑的开放性问题，该数据集为研究者提供了系统检验模型在复杂场景中推理能力的标准化工具，尤其在涉及动作先后顺序判断的时序推理任务上展现出独特价值。

实际应用

在智能家居助手、工业操作指导等需要实时理解第一人称视角视频的场景中，EASG-Bench的评估框架可直接迁移应用。其空间 grounding 特性支持对物体交互的精确定位分析，例如在AR维修指导系统中，模型需准确回答'维修员在拧紧螺丝前使用了什么工具'这类时空耦合问题，该数据集为此类应用提供了可靠的性能验证基准。

衍生相关工作

基于EASG-Bench的发现催生了多个重要研究方向：TimeChat通过时间戳标记改进事件定位精度；LITA开发了专用时间令牌编码机制；Sa2VA融合SAM2特征增强空间理解能力。这些工作共同推动了视频大模型在时空联合推理方面的进展，其中Qwen2.5-VL的链式思维提示策略将时序问题准确率提升5.57%，成为当前最先进的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集