five

anonymous-neurips-submission/video_saliency

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/anonymous-neurips-submission/video_saliency
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含224个自然主义视频刺激的眼动追踪数据集,用于训练和评估视觉显著性模型。数据集包含多个受试者的注视记录,视频分辨率为1920×1080,帧率约为30 fps。数据集分为训练集(204个视频)、验证集(10个视频)和测试集(10个视频)。每个视频的注视记录以CSV文件格式存储,包含时间戳、左右眼注视位置、瞳孔大小等信息。数据集还提供了PyTorch数据加载器的实现,支持GPU加速视频解码。

A video eye-tracking dataset of 224 naturalistic video stimuli with gaze recordings from multiple subjects, designed for training and evaluating visual saliency models. The videos are in 1920×1080 resolution at ~30 fps, split into 204 training, 10 validation, and 10 test videos. Each videos gaze recordings are stored in CSV files containing timestamps, left/right eye gaze positions, pupil sizes, and more. The dataset also includes a PyTorch dataloader implementation with GPU-accelerated video decoding support.
提供机构:
anonymous-neurips-submission
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于自然场景下的视频眼动追踪实验,共采集224个1920×1080分辨率、约30帧/秒的视频刺激材料,并记录多被试的注视数据。数据集按204/10/10划分为训练集、验证集和测试集,其中训练集每个视频由1至3名被试(平均约2.5名)注视,验证集涉及15至16名被试,测试集则有意隐藏了注视数据作为基准。原始眼动数据以500 Hz采样率存储为CSV文件,包含左右眼坐标、瞳孔直径及时间戳等信息,缺失值(如眨眼或跟踪丢失)以空单元格保留,离屏注视可通过坐标越界识别。
特点
该数据集的核心特色在于其精心设计的隐藏测试集,为视觉显著性模型的评估提供了可靠的基准。眼动数据与视频帧之间存在精确的时间对齐,注释了每个注视点对应的视频帧序数,支持逐帧或片段级别的监督学习。此外,数据集提供了灵活的聚合模式,既可联合多被试的注视信息,也可单独选取特定被试的数据。数据加载器内置了缺失值过滤和离屏点标注机制,确保训练过程的鲁棒性。配合Croissant元数据格式,该数据集还支持标准化的跨平台数据遍历与复现。
使用方法
使用该数据集时,推荐基于PyTorch框架,通过自定义的EyeTrackingDataset类加载数据。用户需指定data目录路径及所需的数据划分(train/val/test),并可选择是否启用GPU加速解码。数据集支持按帧索引或按帧范围采样,返回的视频张量为归一化的浮点型张量,注视点张量则按帧组织并以-1填充缺失位置。结合DataLoader与封装好的EyeTrackingCollator,可便捷地实现变长视频片段的批量训练。对于进阶使用,可通过Croissant接口获取逐样本的眼动记录,便于跨数据集的分析与整合。
背景与挑战
背景概述
视频显著性预测是计算机视觉与认知科学交叉领域的重要研究方向,旨在通过算法模拟人类视觉注意力机制,动态预测视频中吸引注视的时空位置。该数据集由匿名研究团队在NeurIPS 2025匿名投稿中首次提出,包含224段1920×1080分辨率、约30fps的自然场景视频刺激,并采集了多名受试者的眼动追踪数据。训练集、验证集与测试集分别包含204、10、10段视频,其中测试集的注视数据被严格保留作为隐藏基准,以推动模型泛化能力的公平评估。该数据集填补了现有视频显著性数据集在自然场景多样性、注视采样密度与标准化评估协议方面的不足,为动态视觉注意力建模提供了高质量的训练资源与可重复性验证工具,对视频压缩、人机交互、自动驾驶等应用领域具有潜在影响力。
当前挑战
该数据集所解决的领域核心挑战在于视频显著性的时空动态建模:与静态图像不同,人类视觉注意力在视频中受运动、场景切换、语义变化等因素持续演化,而现有数据集多局限于静态图像或简单动态场景,难以支撑复杂自然视频下的注意力预测。构建过程中面临的挑战包括:1)眼动数据采集的噪声问题,约3.6%的左眼和约4.7%的右眼注视坐标因眨眼或追踪丢失而缺失,需设计鲁棒的预处理与填充策略;2)多受试者注视数据的个体差异与聚合方式,训练阶段每视频仅1–3名受试者(均值约2.5人),而验证阶段增至15–16人,使模型需在稀疏标注下学习通用显著模式;3)测试集注视数据的严格保密机制,避免了过拟合风险,但要求研究者开发不依赖测试标注的自监督或跨数据集迁移方法,增加了评估难度。
常用场景
经典使用场景
在视觉注意力机制的研究中,video_saliency数据集扮演着关键角色,它专注于视频显著性预测这一经典任务。该数据集提供了224个自然场景视频素材,并配备了多名受试者的眼动追踪数据,使得研究者能够训练和评估模型对动态视觉场景中人类注意力分布的预测能力。通过将视频帧与相应的凝视点数据对齐,研究人员可以构建深度学习模型来学习时空特征与显著性图之间的映射关系,从而推动视频显著性预测领域的发展。
实际应用
video_saliency数据集的实际应用价值体现在多个领域,尤其在视频压缩、广告投放优化和自动驾驶辅助系统等场景中发挥重要作用。在视频编码领域,基于该数据集训练的显著性模型可以指导比特率分配策略,优先保留人类关注区域的高频信息以提升主观质量体验。在界面设计和安全监控系统中,通过预测用户的视觉焦点,可以优化信息布局和告警触发机制,实现更高效的人机交互。
衍生相关工作
基于video_saliency数据集已衍生出一系列经典研究工作,包括时空显著性检测网络的架构创新、跨帧注意力融合机制的探索,以及结合目标检测与显著性预测的多任务学习框架。研究者利用该数据集验证了三维卷积网络、视频Transformer等先进架构在显著性预测任务上的有效性,并开发了诸如生成对抗网络用于模拟人类注视轨迹等前沿方法。此外,该数据集的高频眼动采样特性也催生了关于注视动态预测和时间注意力建模的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作