EgoGazeVQA

Name: EgoGazeVQA
Creator: 北京航空航天大学计算机科学与工程学院虚拟现实技术与系统国家重点实验室; 清华大学人工智能学院
Published: 2025-09-09 15:11:56
License: 暂无描述

arXiv2025-09-09 更新2025-11-24 收录

下载链接：

https://hf-mirror.com/datasets/anonupload/EgoGazeVQA-91-nips25DB

下载链接

链接失效反馈

官方服务：

资源简介：

EgoGazeVQA数据集是首个以第一人称视角视频为基础，并结合眼动追踪数据，用于评估大型多模态语言模型（MLLMs）在理解用户意图方面的性能的基准数据集。该数据集包含了从Ego4D、EgoExo4D和EGTEA Gaze+三个主要的第一人称视频数据集中提取的900个视频片段，以及由MLLMs生成的1757个基于眼动和文本描述的问答对。每个问答对都经过了人工审核，以确保其相关性和准确性。EgoGazeVQA数据集旨在帮助MLLMs更好地理解用户在日常生活场景中的意图和活动，从而提升人工智能助手的个性化和主动性。

EgoGazeVQA is the first benchmark dataset based on first-person perspective videos combined with eye-tracking data, dedicated to evaluating the performance of large multimodal language models (MLLMs) in understanding user intentions. The dataset contains 900 video clips extracted from three major first-person video datasets, namely Ego4D, EgoExo4D, and EGTEA Gaze+, along with 1757 question-answer pairs based on eye-tracking and text descriptions generated by MLLMs. Each question-answer pair has undergone manual review to ensure its relevance and accuracy. The EgoGazeVQA dataset aims to help MLLMs better understand user intentions and activities in daily life scenarios, thereby enhancing the personalization and initiative of AI assistants.

提供机构：

北京航空航天大学计算机科学与工程学院虚拟现实技术与系统国家重点实验室; 清华大学人工智能学院

创建时间：

2025-09-09

搜集汇总

数据集介绍

构建方式

在构建EgoGazeVQA数据集的过程中，研究团队整合了来自Ego4D、EgoExo4D和EGTEA Gaze+三大权威数据源的视频片段，通过提取帧级描述文本与归一化凝视坐标构建多模态输入。采用先进的多模态大语言模型生成初始问答对，并依据凝视轨迹设计空间定位、时序推理与因果推断三类问题。为确保数据质量，人工标注者从相关性、可回答性、语言流畅度等六个维度对生成内容进行严格筛选，最终形成包含1757个高质量问答对的基准数据集。

使用方法

使用EgoGazeVQA时需将视频帧序列与对应凝视坐标作为多模态输入，可采用三种凝视引导策略：文本形式直接输入归一化坐标，视觉形式在帧中标记凝视点，或通过时序凝视显著图整合空间注意力模式。评估时模型需根据凝视线索推断用户对物体的空间关系、行动时序及行为动机，在五选一多选题中选出符合凝视逻辑的答案。该数据集支持零样本测试与参数微调两种范式，为开发具有人类级别意图理解能力的视觉语言模型提供标准化评估基准。

背景与挑战

背景概述

EgoGazeVQA数据集由北京航空航天大学与清华大学研究团队于2025年联合推出，旨在解决多模态大语言模型在自我中心视频中理解用户意图的核心问题。该数据集通过整合Ego4D、EgoExo4D和EGTEA Gaze+等权威数据源，构建了包含1757个高质量问答对的基准测试，首次将注视轨迹作为关键模态引入视频问答任务。其创新性在于通过注视信号揭示用户注意力分布，推动人工智能助手在日常生活场景中实现主动化与个性化交互，为自我中心视觉推理研究开辟了新维度。

当前挑战

该数据集致力于攻克自我中心视频中的意图理解难题，其核心挑战在于模型需精准解析注视轨迹与空间布局、时间逻辑及因果关系的复杂关联。构建过程中面临多重挑战：多源异构数据融合需统一不同采集设备的注视坐标标准；高质量问答对生成依赖大语言模型与人工校验的协同，需平衡生成效率与语义准确性；注视噪声过滤要求开发鲁棒的时序建模方法，以应对头部运动导致的坐标漂移问题。

常用场景

经典使用场景

在具身智能研究领域，EgoGazeVQA通过整合眼动追踪数据与第一人称视频，构建了首个以注视信号为核心的视频问答基准。该数据集典型应用于评估多模态大语言模型在理解用户空间意图、时序行为和因果推理方面的能力，模型需根据注视轨迹推断用户与物体的交互逻辑，例如判断厨房场景中搅拌碗相对于视线焦点的空间方位。

解决学术问题

该数据集有效解决了传统视频问答基准忽视注视信号作为用户意图表征的关键局限。通过提供空间定位、时序关联和因果推断三类任务，EgoGazeVQA推动了多模态模型对具身视角下人类注意机制的理解，填补了主动式人工智能助手在个性化意图解析方面的研究空白，为构建更符合人类认知习惯的视觉语言模型提供了理论支撑。

实际应用

在智能辅助系统开发中，EgoGazeVQA为沉浸式交互设备提供了关键验证平台。其注视引导的推理机制可应用于医疗培训场景的动作意图分析、智能厨房的物体操作监控，以及虚拟现实环境中用户注意力的实时追踪，显著提升了人工智能系统在复杂日常场景中理解人类行为动机的准确性与适应性。

数据集最近研究