EASG-Bench

github2025-06-10 更新2025-06-19 收录

下载链接：

https://github.com/fpv-iplab/EASG-bench

下载链接

链接失效反馈

官方服务：

资源简介：

EASG-Bench是一个用于第一人称视频问答的基准数据集，其中的问答对是基于时空动态场景图创建的，这些场景图捕捉了演员、动作和对象之间复杂的关系。

EASG-Bench is a benchmark dataset for first-person video question answering, where the question-answer pairs are constructed based on spatiotemporal dynamic scene graphs that capture the complex relationships between actors, actions, and objects.

创建时间：

2025-05-28

原始信息汇总

EASG-Bench 数据集概述

数据集基本信息

名称: EASG-Bench
类型: 视频问答基准数据集
领域: 第一人称视角（egocentric）视频理解
创建者: Ivan Rodin, Tz-Ying Wu, Kyle Min, Sharath Nittur Sridhar, Antonino Furnari, Subarna Tripathi, Giovanni Maria Farinella
机构: 卡塔尼亚大学, Intel Labs
论文链接: https://arxiv.org/pdf/2506.05787

数据集特点

核心内容: 通过时空基础动态场景图（spatio-temporally grounded dynamic scene graphs）捕捉演员、动作和对象之间的复杂关系，并基于此生成问答对。
研究重点: 长期上下文视频理解，特别是时间顺序相关的问题。

数据生成

生成脚本: generate_QA.ipynb
数据源: 基于Ego4D注释提取的时间戳叙述
预处理数据: clilp_narrations.json

评估框架

评估机制: LLM-as-a-Judge
主要评估脚本: eval_llama_review.py
评估规则文件: rule.txt
输入格式: JSON格式的问答对
输出格式: 包含类别分数的JSON文件
分数调整: 使用scale.json中的比例因子进行调整

使用方法

运行评估脚本: bash eval_llama.sh
评估结果将包含:
- 质量分数
- 相应解释
- 按类别的分数

引用格式

bibtex @article{rodin2025easg, title={EASG-Bench: Video Q&A Benchmark with Egocentric Action Scene Graphs}, author={Rodin, Ivan and Wu, Tz-Ying and Min, Kyle and Sridhar, Sharath Nittur and Furnari, Antonino and Tripathi, Subarna and Farinella, Giovanni Maria}, journal={arXiv preprint}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在视频理解领域，EASG-Bench通过构建时空动态场景图来生成问答对，为第一人称视角视频提供了系统的评估基准。该数据集利用Ego4D标注的时间戳叙述，采用自动化脚本处理原始视频数据，提取关键场景元素及其交互关系，形成结构化的动态场景图表示。研究人员通过精心设计的生成流程，确保每个问题都对应视频中具体的时空上下文，从而捕捉复杂的动作-对象关系。

特点

EASG-Bench以其独特的时空动态场景图表示方法，显著提升了视频问答任务的细粒度评估能力。该数据集包含多样化的问答类型，特别强调时序推理和目的理解等具有挑战性的认知任务。其核心价值在于提供了标准化的评估框架，能够准确衡量模型对长视频上下文的理解深度，尤其擅长揭示现有视频大语言模型在时序推理方面的性能瓶颈。

使用方法

研究人员可通过提供的评估脚本对模型性能进行系统测试，采用LLM-as-a-Judge机制实现自动化评分。使用前需准备包含视频上下文信息的JSON文件，配置评估规则和待测问答对。运行评估脚本后，系统会输出包括时序准确性、目的理解等维度的详细评分报告。该框架支持对语言模型和视频大语言模型的横向比较，为改进视频理解算法提供可量化的参考依据。

背景与挑战

背景概述

EASG-Bench是由意大利卡塔尼亚大学与英特尔实验室联合研发的视频问答基准数据集，专注于第一人称视角（egocentric）视频内容的理解与分析。该数据集于2025年由Ivan Rodin等学者提出，其核心研究问题在于如何通过时空动态场景图（spatio-temporally grounded dynamic scene graphs）捕捉视频中复杂的动作、参与者及物体间关系，进而生成具有深度语义关联的问答对。作为计算机视觉与自然语言处理交叉领域的前沿探索，EASG-Bench填补了长上下文视频理解的研究空白，尤其为视频大语言模型（video-LLMs）的时序推理能力评估提供了标准化框架。

当前挑战

EASG-Bench面临双重技术挑战：在领域问题层面，现有模型对时序逻辑问题的处理存在显著性能差距，例如动作序列排序、跨帧实体关系推理等任务，暴露出视频语义理解的长程依赖建模缺陷；在构建过程中，动态场景图的自动化生成需精准对齐多模态特征，而问答对的标注需平衡语义复杂性与客观可评估性，这对标注系统的知识表示能力和抗噪声设计提出了极高要求。

常用场景

经典使用场景

在计算机视觉与人工智能领域，EASG-Bench数据集为研究者提供了一个独特的基准测试平台，专门用于评估模型在自我中心视频中的问答能力。通过时空动态场景图捕捉视频中复杂的动作、对象及其关系，该数据集能够全面测试模型对长上下文视频的理解能力。经典使用场景包括视频问答系统的开发与优化，特别是在需要理解时间顺序和复杂交互的情境下。

解决学术问题

EASG-Bench解决了视频理解领域中的关键学术问题，尤其是长上下文视频的时序理解和复杂关系推理。通过构建时空动态场景图生成问答对，该数据集揭示了语言模型和视频大语言模型在时序问题上的性能差距，为未来研究指明了方向。其意义在于推动了视频问答技术向更高层次的语义理解和推理能力发展。

衍生相关工作

围绕EASG-Bench数据集，研究者们开展了一系列经典工作，主要集中在视频大语言模型的优化和时序推理算法的改进上。这些工作不仅提升了模型在复杂视频问答任务中的表现，还衍生出新的研究方向，如多模态融合技术和动态场景图的自动生成方法。相关成果已在多个顶级会议和期刊上发表，推动了整个领域的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集