anonymous-neurips-submission/video_saliency_example

Name: anonymous-neurips-submission/video_saliency_example
Creator: anonymous-neurips-submission
Published: 2026-05-02 08:06:06
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/anonymous-neurips-submission/video_saliency_example

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为Saliency Eye-Tracking Dataset — Example Subset的视频眼动追踪数据集，是完整video_saliency数据集的一个小子集。该数据集用于训练和评估视觉显著性模型，包含自然视频刺激和来自多个受试者的注视记录。示例子集包含3个视频，每个视频有3-16名受试者的注视记录，总计22条注视记录。完整数据集包含224个视频，总计836条注视记录。README中还详细描述了数据集的结构、数据格式、安装和使用方法。

A video eye-tracking dataset named Saliency Eye-Tracking Dataset — Example Subset, which is a small subset of the full video_saliency dataset. The dataset is designed for training and evaluating visual saliency models, containing naturalistic video stimuli with gaze recordings from multiple subjects. The example subset includes 3 videos with gaze recordings from 3–16 subjects per video, totaling 22 gaze recordings. The full dataset contains 224 videos with 836 gaze recordings. The repository structure, data format, installation, and usage instructions are also provided in detail.

提供机构：

anonymous-neurips-submission

搜集汇总

数据集介绍

构建方式

该数据集为视频显著性眼动追踪数据的示例子集，源自包含224个自然场景视频的完整数据集。构建时选取了其中3个分辨率为1920×1080、帧率约30fps的视频片段，并整合了22条来自多名受试者的真实眼动记录。每个视频对应3至16名受试者，其凝视数据以约500Hz的采样率采集，存储为CSV格式，包含左右眼注视位置、瞳孔尺寸及对应视频帧索引等字段。无效样本（如眨眼或视线出屏）通过坐标越界或缺失值标记，由数据加载器自动过滤。

特点

该示例子集以极小的数据规模（3个视频）复现了完整数据集的核心结构，适合快速原型开发与算法测试。眼动数据与视频帧通过时间戳和帧索引精确对齐，支持像素级注视点分析。数据集采用PyTorch Dataset封装，提供灵活的帧范围索引与批处理机制，并可借助Decord库实现GPU加速视频解码，显著提升训练效率。此外，受试者模式与累积注视点参数的设计，使得模型能够根据需求选择单受试者或多受试者整合的凝视信息。

使用方法

使用时需安装torch、decord、pandas、numpy等依赖库，并通过导入EyeTrackingDataset类实例化数据集对象。通过指定data_dir路径与split参数（train/val/test）即可加载对应视频与注视点张量。支持按视频索引或帧范围元组（video_idx, start_frame, end_frame）获取数据，输出为归一化的视频帧序列和填充至统一长度的注视点坐标。配合EyeTrackingCollator与DataLoader，可轻松实现变长视频片段的批量化训练，适配各类时空显著性模型。

背景与挑战

背景概述

视觉显著性预测是计算机视觉与认知科学交叉领域的重要研究方向，旨在模拟人类视觉系统对动态场景中注意力焦点的选择机制。video_saliency_example数据集作为完整video_saliency数据集的一个子集，由研究团队于近年创建，包含3段高清自然视频（1920×1080，约30fps）及22份多被试眼动追踪记录，用于测试与开发目的。该数据集的核心研究问题在于为动态视觉显著性模型提供标准化的训练与评估基准，其完整版本涵盖224段视频、836份凝视记录，每段视频拥有1至16名不等的被试数据，填补了自然场景下视频级眼动数据的稀缺性。凭借大规模、高分辨率的自然刺激材料，该数据集对推动基于深度学习的视频显著性预测研究具有重要影响力，成为该领域评估模型泛化能力的关键资源。

当前挑战

video_saliency_example数据集所解决的领域挑战在于精准建模动态视觉显著性，传统静态图像显著性模型难以捕捉视频中运动、场景切换等时间动态特性，而该数据集通过提供高时间分辨率的凝视记录（约500Hz）与逐帧注视点坐标，为时间维度上的注意力预测开辟了可能。构建过程中面临的主要挑战包括：自然视频刺激下多被试凝视数据的时空校准，需消除个体间注视偏差与设备差异产生的噪声；眼动数据中眨眼、离屏等无效样本的自动过滤处理，要求数据加载器具备鲁棒的异常值识别机制；以及视频帧索引与凝视时间戳之间的精确同步，确保每一帧的注视点标注与视觉内容严格对齐，从而为模型提供高质量的训练监督信号。

常用场景

经典使用场景

在视觉注意计算建模领域，该数据集被广泛用于训练和评估视频显著性预测模型。研究者能够利用其提供的多受试者眼动追踪数据与自然场景视频对，构建基于深度学习的显著性映射网络，以模拟人类在动态视觉环境中的注意力分配机制。其高采样率（500 Hz）和双目光点记录为捕捉微秒级注视动态提供了可靠基准，而标准的训练/验证/测试划分则确保了模型评估的可复现性和公平性。

实际应用

在产业界，该数据集可赋能视频压缩与自适应流媒体技术，通过预测用户注意力区域来优化编码比特分配，从而在低带宽条件下保持感知质量。同时，它被应用于增强现实（AR）界面设计，辅助系统预判操作者的视觉焦点以动态调节信息密度。在视频监控与自动驾驶领域，该数据启发的模型能够自动标注场景中的关键事件与潜在危险目标，提升人机协作系统的响应效率与安全性。

衍生相关工作

基于该数据集，学术界衍生出一系列经典工作，例如提出融合光流与三维卷积的时空显著性网络（STS-Net），以及引入注视一致性损失函数来强化多受试者协同预测的框架。此外，研究者利用其逐帧注视数据开发了基于注意力机制的视频摘要算法，促使模型学会从众包眼动模式中提炼语义关键帧。该数据集还催生了将眼动追踪用于弱监督视频行为定位的交叉领域研究，拓展了动态视觉数据在计算机视觉中的方法论边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集