StreamGaze Benchmark

github2025-12-02 更新2025-12-03 收录

下载链接：

https://github.com/daeunni/StreamGaze

下载链接

链接失效反馈

官方服务：

资源简介：

StreamGaze Benchmark是一个用于流媒体视频中注视引导时序推理和主动理解的基准数据集。它包含285个视频、8,521个问答对，涵盖10个任务类别，分为过去任务（如场景回忆、对象转换预测）、当前任务（如对象识别、对象属性识别）和主动任务（如注视触发警报）。数据集旨在评估模型在实时视频流中基于用户注视进行记忆、推理和预测的能力。

StreamGaze Benchmark is a benchmark dataset for gaze-guided temporal reasoning and active understanding in streaming video. It contains 285 videos and 8,521 question-answer pairs, covering 10 task categories, which are divided into past tasks (e.g., scene recall, object transition prediction), current tasks (e.g., object recognition, object attribute recognition), and active tasks (e.g., gaze-triggered alarm). This dataset aims to evaluate the ability of models to perform memory, reasoning and prediction based on user gaze in real-time video streams.

创建时间：

2025-11-25

原始信息汇总

StreamGaze 数据集概述

数据集基本信息

数据集名称: StreamGaze
核心主题: 面向流式视频的注视引导时序推理与主动理解
发布状态: 基准测试与评估代码已于2025年12月1日发布

数据集规模与构成

视频数据

视频总数: 285个
视频类型: 原始第一人称视角视频及带有注视叠加层的可视化视频

问答对数据

问题总数: 8,521个
数据组织: 按任务类别存储于JSON文件中

任务类别

任务总数: 10个任务，分为3大类
过去任务 (Past Tasks): 4个，侧重于记忆与时序回忆
当前任务 (Present Tasks): 4个，侧重于实时感知与推理
主动任务 (Proactive Tasks): 2个，侧重于预期与警报

任务详细描述

🔙 过去任务：记忆与时序回忆

模型必须记住并推理视频流中较早发生的事件。

场景回忆 (Scene Recall, SR): 用户与哪些物体进行了交互？
物体转移预测 (Object Transition Prediction, OTP): 根据过去的模式，用户接下来会看哪个物体？
注视序列匹配 (Gaze Sequence Matching, GSM): 哪个注视模式与用户的注意力流相匹配？
非注视物体识别 (Non-Fixated Objects Identification, NFI): 哪些物体出现了但从未被注视过？

👁️ 当前任务：实时感知与推理

模型必须基于实时注视识别和理解当前正在发生的事情。

物体识别 (Object Identification, Easy/Hard): 用户当前正在看什么？
物体属性识别 (Object Attribute Recognition, OAR): 被注视物体有哪些特征？
未来动作预测 (Future Action Prediction, FAP): 用户即将执行什么动作？

🔮 主动任务：预期与警报

模型必须预测未来事件并主动响应，这是最具挑战性的类别。

注视触发警报 (Gaze-Triggered Alert, GTA): 当用户注视特定目标物体时发出通知
物体出现警报 (Object Appearance Alert, OAA): 当目标物体出现在场景中时发出警报

数据获取与结构

下载地址: https://huggingface.co/datasets/danaleee/StreamGaze
目录结构:

StreamGaze/ ├── dataset/ │ ├── videos/ │ │ ├── original_video/ # 原始第一人称视角视频 │ │ └── gaze_viz_video/ # 带有注视叠加层的视频 │ └── qa/ │ ├── past_.json # 过去任务问答对 │ ├── present_.json # 当前任务问答对 │ └── proactive_*.json # 主动任务问答对

数据生成流程

流程概述: 端到端自动数据生成流程，处理来自第一人称视角视频的原始注视数据，并生成高质量的时序推理问答对。
支持的数据集: EGTEA-Gaze+, Ego4D-Gaze, HoloAssist, EgoExoLearn
流程阶段:
1. 注视投影与注视点提取
2. 质量过滤与物体识别 (使用 InternVL-3.5 38B)
3. 序列过滤与元数据合并
4. 为12种任务类型生成问答对
5. 问答对验证与过滤 (使用 Qwen3VL 30B)

评估与基准

评估框架: 与 StreamingBench (https://github.com/THUNLP-MT/StreamingBench) 结构相同
预置模型评估: 支持 ViSpeak、GPT-4o、Qwen2.5-VL 等模型的快速评估
结果保存路径: results/ModelName/results/ 和 results/ModelName/results_viz/

相关资源

论文: https://arxiv.org/abs/2512.01707
项目网站: https://streamgaze.github.io
基准测试地址: https://huggingface.co/datasets/danaleee/StreamGaze

搜集汇总

数据集介绍

构建方式

在视觉计算与认知科学交叉领域，StreamGaze基准数据集通过一套端到端的自动化流水线精心构建而成。该流程从多个公开的自我中心视频数据集（如EGTEA-Gaze+、Ego4D-Gaze）中提取原始注视数据，经过注视投影与固定点提取、质量过滤、对象识别（采用InternVL-3.5 38B模型）以及序列过滤等多阶段处理。随后，系统针对十二种任务类型自动生成高质量的时序推理问答对，并最终利用Qwen3VL 30B模型进行严格的验证与筛选，确保了数据的可靠性与复杂性。

特点

StreamGaze数据集的核心特征在于其深度融合了注视引导的时序推理与前瞻性理解。数据集包含285个视频和8,521个问答对，系统性地划分为过去、现在和前瞻三大类别共十项任务。这些任务不仅要求模型进行场景回忆、对象识别等基础感知，更挑战其基于实时注视流预测未来动作、触发主动警报等高级认知能力。数据集中同时提供原始视频与叠加了注视可视化轨迹的视频版本，为研究注视行为如何驱动视频流中的连续理解提供了独特而丰富的实验基础。

使用方法

为便于研究者使用，数据集已托管于Hugging Face平台，并提供了清晰的目录结构与评估脚本。用户可通过下载数据集，并按照指定路径组织视频与问答文件。评估框架支持对现有模型（如ViSpeak、GPT-4o）进行快速测试，用户仅需运行相应脚本即可在有无注视可视化两种条件下进行评估，结果将自动保存并汇总。此外，框架具有高度可扩展性，研究者可通过实现模型包装类、注册模型并创建评估脚本的标准化流程，便捷地将自有模型集成到该基准测试中，推动注视引导视频理解领域的算法创新。

背景与挑战

背景概述

在视频理解与人工智能交叉领域，如何实现动态、连续的视觉信息处理一直是核心难题。StreamGaze 基准数据集于2025年由北卡罗来纳大学教堂山分校与Adobe研究院联合发布，旨在推动流媒体视频中基于注视引导的时序推理与前瞻性理解研究。该数据集聚焦于从第一人称视角视频中提取的注视数据，构建了涵盖过去、现在与未来三个维度的十项复杂任务，旨在评估模型对动态视觉场景的记忆、实时感知与主动预警能力。其创新性地将人类注视模式作为理解视频内容的关键线索，为具身智能与交互式AI系统的发展提供了重要的评估基准。

当前挑战

StreamGaze 数据集致力于解决流媒体视频中时序理解与主动感知的综合性挑战，其核心在于要求模型不仅被动识别内容，还需主动预测未来事件并发出预警。构建过程中的主要挑战体现在多模态数据的精准对齐与高质量标注上。原始注视数据与视频帧的时空配准需要极高的精度，而自动生成涵盖记忆回溯、实时推理与主动预警的多样化问答对，则依赖于大规模视觉语言模型的可靠性与生成逻辑的严谨性。此外，确保生成数据的多样性、平衡性与真实性，避免模型过拟合于特定模式或场景，亦是数据集构建中需要克服的关键技术障碍。

常用场景

经典使用场景

在计算机视觉与人工智能领域，StreamGaze Benchmark 作为一项专注于流媒体视频中眼动引导时序推理的基准测试，其经典使用场景在于评估多模态模型对动态视觉信息的理解能力。该数据集通过整合眼动追踪数据与视频序列，模拟人类在连续观看过程中的注意力机制，要求模型基于历史、当前及未来的眼动模式进行推理。研究者通常利用该数据集训练和验证模型在记忆回溯、实时感知与前瞻性预警等任务上的表现，从而推动视觉语言模型在时序理解方面的进展。

衍生相关工作

围绕 StreamGaze Benchmark，已衍生出一系列经典研究工作，主要集中在眼动增强的多模态模型架构与评估方法上。例如，ViSpeak 等模型通过融合眼动可视化特征，提升了在时序问答任务上的性能。同时，基于该数据集的自动数据生成流程推动了 EGTEA-Gaze+、Ego4D-Gaze 等眼动数据集的标准化处理。这些工作不仅拓展了视觉语言模型在流媒体理解中的应用边界，也为未来眼动引导的主动感知系统奠定了算法基础。

数据集最近研究