video_saliency

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/anonymous-neurips-submission/video_saliency

下载链接

链接失效反馈

官方服务：

资源简介：

SalTempto是一个用于训练和评估视觉显著性模型的视频眼动追踪数据集，包含224个自然主义视频刺激及多名受试者的凝视记录。数据集分为训练集(204个视频)、验证集(10个视频)和测试集(10个视频)，其中测试集的凝视记录被保留作为隐藏基准。每个视频的凝视数据以CSV格式存储，包含时间戳、左右眼凝视位置、瞳孔大小等字段，采样频率约为500 Hz。数据集提供了PyTorch数据加载器，支持GPU加速视频解码，并包含Croissant元数据文件，便于标准化访问。适用于视觉显著性预测、眼动分析等任务。

SalTempto is a video eye-tracking dataset for training and evaluating visual saliency models, containing 224 naturalistic video stimuli and gaze recordings from multiple subjects. The dataset is divided into training set (204 videos), validation set (10 videos) and test set (10 videos), with the test sets gaze recordings reserved as a hidden benchmark. Each videos gaze data is stored in CSV format, including timestamp, left/right eye gaze positions, pupil size and other fields, with a sampling frequency of approximately 500 Hz. The dataset provides PyTorch data loaders supporting GPU-accelerated video decoding, and includes Croissant metadata files for standardized access. Suitable for visual saliency prediction, eye movement analysis and other tasks.

创建时间：

2026-04-29

原始信息汇总

数据集概览

SalTempto — 视频显著性与眼动跟踪数据集，包含 224 个自然视频刺激的多被试眼动记录，用于训练和评估视觉显著性模型。

基本信息

项目	内容
视频数量	224 个（分辨率 1920×1080，帧率约 30 fps）
数据划分	训练集 204 个 / 验证集 10 个 / 测试集 10 个
每视频被试数	训练集：1–3 人（平均约 2.5 人）；验证集：15–16 人；测试集：保留未公开
测试集说明	测试集的眼动记录被故意保留作为隐藏基准，仅公开测试视频刺激本身

数据存储结构

video_saliency/ ├── dataloader.py # PyTorch 数据集和数据加载器 ├── data/ │ ├── train_videos.csv # 训练集视频 ID 列表 │ ├── val_videos.csv # 验证集视频 ID 列表 │ ├── test_videos.csv # 测试集视频 ID 列表 │ ├── videos/ # MP4 视频文件（video_0000.mp4 … video_0223.mp4） │ └── eyetracking/ # 每个视频的眼动记录 │ └── video_XXXX/ │ └── video_XXXX_subject_Y.csv

眼动数据格式

每个 video_XXXX_subject_Y.csv 文件包含约 500 Hz 的原始眼动采样，列说明如下：

列名	描述
`time`	时间戳（毫秒）
`left_x`, `left_y`	左眼注视位置（像素，1920×1080）
`left_p`	左眼瞳孔大小
`right_x`, `right_y`	右眼注视位置（像素）
`right_p`	右眼瞳孔大小
`seconds`	跟踪器时间戳（秒，= time / 1000）
`timestamp_start`	自视频开始后的秒数（CSV 第一行为 0.0）
`frames`	对应的视频帧索引（可为小数）

缺失数据：眨眼或跟踪丢失导致的缺失采样以 CSV 空单元格表示，整个数据集中左眼坐标约 3.6%、右眼坐标约 4.7% 缺失。
屏幕外注视：未单独标记，可通过坐标超出有效范围（x ≤ 0 或 x ≥ 1920，y ≤ 0 或 y ≥ 1080）识别，数据加载器会自动过滤。

数据加载器参数

参数	默认值	描述
`data_dir`	必填	`data/` 目录路径
`split`	`"train"`	划分方式：`"train"`、`"val"` 或 `"test"`
`use_gpu`	`True`	是否使用 GPU 加速视频解码
`gpu_id`	`0`	GPU 设备索引
`subject_mode`	`"combined"`	`"combined"` 使用所有被试，或 `"subject_N"` 使用单个被试
`cumulative_fixations`	`False`	若为 `True`，返回从帧 0 到结束帧的所有注视点
`video_dir`	`data_dir/videos`	覆盖视频目录
`csv_base_dir`	`data_dir/eyetracking`	覆盖眼动记录目录

Croissant 元数据

数据集附带 Croissant 元数据文件（croissant.json），可通过 mlcroissant 库访问。暴露的记录集包括：

eyetracking-data：逐样本眼动记录（字段：video_id, subject_id, time, left_x, left_y, left_p, right_x, right_y, right_p, seconds, timestamp_start, frames）
train-split、val-split、test-split：分别输出对应划分的视频 ID 列表

搜集汇总

数据集介绍

构建方式

该数据集通过收集224段1920×1080分辨率、约30帧/秒的自然视频刺激材料，并记录多位受试者的眼动数据构建而成。视频素材按204/10/10的比例划分为训练、验证与测试集，其中训练集每段视频有1至3名受试者（平均约2.5人），验证集包含15至16人，而测试集的注视记录被完全隐藏，仅公开视频刺激，作为独立基准评测使用。眼动数据以约500Hz的采样频率采集，存储为每段视频每名受试者独立的CSV文件，记录内容包括左右眼注视位置（像素坐标）、瞳孔大小及时间戳等字段。缺失样本（如眨眼或追踪丢失）以空单元格标记，约占左眼坐标的3.6%及右眼坐标的4.7%。

使用方法

数据集使用简洁高效，依托PyTorch框架与Decord解码库实现。用户通过实例化EyeTrackingDataset类并指定数据目录与分割类型（train/val/test）即可加载数据，支持GPU加速视频解码。示例中，通过索引可获取完整视频的所有帧及对应的注视张量，或通过元组索引指定帧区间（如起点、终点及步长）。借助DataLoader与EyeTrackingCollator，可便捷构建批次数据，支持变长帧序列的填充与长度追踪。关键参数如subject_mode用于控制受试者合并或分离，cumulative_fixations则决定注视数据是否从起始帧累积。安装仅需torch、decord、pandas及numpy等基础依赖，整体集成门槛较低。

背景与挑战

背景概述

视觉显著性预测旨在模拟人类视觉系统在自然场景中自动定位感兴趣区域的能力，是计算机视觉与认知科学交叉领域的重要研究方向。video_saliency数据集由匿名研究团队于近期创建，包含224段1920×1080分辨率、约30帧/秒的自然视频刺激，并记录了多被试的眼动轨迹数据。其中训练集包含204个视频（每视频约2.5名被试），验证集包含10个视频（每视频15-16名被试），测试集的眼动数据作为隐藏基准不公开。该数据集设计用于训练和评估视频显著性模型，填补了大规模、高质量视频眼动数据集在公开基准上的空白，推动了动态场景下注意力建模的研究进展。

当前挑战

该数据集主要应对两大挑战。其一，在领域问题层面，动态视觉显著性预测需同时建模时空信息与复杂的注意力转移机制，传统基于静态图像的显著模型难以直接迁移至视频场景，且缺乏包含多种自然动态内容与多被试注视数据的统一基准进行公平评估。其二，在数据集构建过程中，眼动追踪数据不可避免地存在缺失样本（左眼约3.6%、右眼约4.7%），且屏幕外注视难以直接标记；同时，测试集眼动数据完全非公开，增加了模型泛化性能验证的难度，要求研究者设计鲁棒的数据预处理与评估策略。

常用场景

经典使用场景

视频显著性预测是计算机视觉与认知科学交叉领域的重要研究方向，旨在模拟人类视觉系统在动态场景中的注意力分配机制。SalTempto数据集凭借其包含224个自然视频刺激和多受试者眼动追踪记录的独特设计，成为训练和评估视频显著性模型的经典基准。研究者通常利用该数据集的训练分割（204个视频）来训练深度神经网络模型，使其学习从视频帧序列到注视点分布的映射，并在验证分割（10个视频，15-16名受试者）上调整超参数，最终在保留测试集上评估模型泛化能力。该数据集提供的密集眼动采样（约500Hz）和逐帧注视点标注，使得模型能够精细捕捉动态场景中时空维度的显著性特征，成为视频理解领域不可或缺的评估工具。

解决学术问题

该数据集系统性地解决了视频显著性预测领域长期存在的数据稀缺问题，突破了以往静态图像显著性模型难以直接迁移至动态场景的瓶颈。通过提供224个多样化自然视频（1920×1080分辨率）及其对应的多受试者眼动数据，SalTempto使研究者能够量化分析复杂动态环境中的视觉注意力机制，例如运动物体、场景切换和时空一致性等因子对注视点分布的影响。数据集中约3.6%至4.7%的缺失数据（如眨眼）和离屏注视点的处理规范，为构建鲁棒的注意力模型提供了标准化参考。其保留测试集的隐藏眼动记录机制，有效避免了模型过拟合和评估偏差，推动了视频显著性预测领域从定性分析向定量比较的范式转变。

实际应用

SalTempto数据集的实际应用价值广泛渗透至人机交互、自动驾驶和视频压缩等关键领域。在自动驾驶场景中，基于该数据集训练的显著性模型能够预测驾驶员在复杂交通环境中的注视区域，助力车载系统优化危险预警和注意力辅助功能；在视频编码领域，显著性预测可指导非均匀比特分配策略，通过在人眼关注区域保留更多细节来提升压缩效率；在人机交互界面设计中，该数据集的眼动模式分析可用于智能广告投放和用户界面优化，使信息呈现更符合人类自然注意力习惯。此外，该数据集还为视频质量评估和沉浸式媒体体验优化提供了生物学启发的评价标准，显著提升了工程应用的可信度。

数据集最近研究