VideoSaliencyChallenge

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/ANDRYHA/VideoSaliencyChallenge

下载链接

链接失效反馈

官方服务：

资源简介：

CVPR-NTIRE Video Saliency Prediction Challenge 2026 数据集是一个新颖的视听鼠标显著性数据集，旨在支持视频显著性预测任务。该数据集包含2000个视频（1200个训练视频和800个测试视频），平均时长为18秒，分辨率均为FullHD。视频内容多样，涵盖电影、体育、直播、垂直视频等多种类型，并且所有视频均包含音频轨道，观察者在观看时音频处于开启状态。数据集提供了来自超过5000名观察者的鼠标注视点数据（每个视频超过70个观察者），以及几乎无损压缩的连续显著性地图视频。文件结构包括视频文件、训练/测试分割JSON文件、显著性地图压缩文件、注视点数据文件（包括每帧注视点坐标和二进制注视点地图）、视频元信息JSON文件以及示例提交文件。数据集采用CC-BY许可协议，适用于视频显著性预测、视听注意力建模等研究任务。

创建时间：

2026-02-05

原始信息汇总

CVPR-NTIRE Video Saliency Prediction Challenge 2026 数据集概述

数据集基本信息

数据集名称：CVPR-NTIRE Video Saliency Prediction Challenge 2026
许可协议：CC-BY-4.0
数据规模：1K<n<10K
挑战赛页面：https://www.codabench.org/competitions/12842/
相关会议：NTIRE 2026 (https://www.cvlai.net/ntire/2026/)

数据集内容与特征

数据类型：音频-视觉鼠标显著性数据集
视频数量：2000个视频（训练集1200个，测试集800个）
视频时长：平均18秒
视频分辨率：全高清（FullHD）
音频信息：所有视频均包含音频轨道，观察者在观看时开启声音
标注信息：来自超过5000名观察者（每个视频超过70名）的鼠标注视点数据
内容多样性：包含电影、体育、直播、竖屏视频等多种类型内容

文件结构

Videos.zip
- 包含2000个.mp4格式视频文件（1200个训练视频，800个测试视频）
TrainTestSplit.json
- 提供所有视频的训练集/公开测试集/私有测试集划分信息
SaliencyTrain.zip / SaliencyTest.zip
- 训练集/测试集的连续显著性地图视频文件
- 采用近乎无损压缩（crf 0，10bit，最小-最大归一化）
FixationsTrain.zip / FixationsTest.zip
- 训练集/测试集的注视点数据，包含：
  - .../video_name/fixations.json：每帧注视点坐标（用于计算评估指标）
  - .../video_name/fixations_maps/：二值化注视点地图（PNG格式，仅用于可视化和帧数检查）
VideoInfo.json
- 每个视频的元信息（如许可协议等）
SampleSubmission.zip
- 挑战赛提交示例，基于训练集平均显著性地图拟合的中心先验高斯分布生成

评估方法

评估脚本：bench.py
依赖环境：Python 3.8.16, numpy 1.24.2, opencv-python 4.7.0.72, tqdm 4.65.0, ffmpeg 4.4.2
评估流程：
1. 预测结果需与SampleSubmission.zip的结构和命名保持一致
2. 下载并解压SaliencyTest.zip、FixationsTest.zip和TrainTestSplit.json文件
3. 运行bench.py脚本，指定相关路径参数
4. 评估结果将输出到指定的results.json文件
评估模式：支持公开测试集（public_test）和私有测试集（private_test）评估

搜集汇总

数据集介绍

构建方式

在多媒体内容分析领域，视频显著性预测旨在模拟人类视觉注意力机制。VideoSaliencyChallenge数据集通过收集2000段涵盖电影、体育、直播及垂直视频等多样化内容的FullHD分辨率视频构建而成，每段视频平均时长为18秒，并保留了音频轨道以增强生态效度。数据采集过程中，超过5000名观察者在音频开启条件下观看视频，通过鼠标追踪技术记录其注视点，最终生成每帧的注视坐标及连续显著性图，所有数据遵循CC-BY许可协议开放使用。

使用方法

使用该数据集时，研究者需下载包含视频、显著性图、注视点文件及划分信息的压缩包。模型预测需按照示例提交的结构组织，生成与测试集视频对应的显著性预测视频。评估过程通过提供的bench.py脚本执行，需预先配置Python环境并安装FFmpeg等依赖库。脚本将提取预测与真实数据的帧序列，结合注视点坐标计算评估指标，结果以JSON格式输出，支持公开与私有测试模式，确保评测的一致性与可复现性。

背景与挑战

背景概述

视频显著性预测作为计算机视觉领域的关键研究方向，致力于模拟人类视觉系统在动态场景中的注意力分配机制。VideoSaliencyChallenge数据集由CVPR-NTIRE 2026竞赛推出，其核心研究问题在于构建一个大规模、高分辨率的视听融合显著性数据集，以推动视频内容分析与理解的前沿发展。该数据集收录了涵盖电影、体育、直播及竖屏视频等多样化内容的2000段全高清视频，并同步采集了超过5000名观察者在音频开启状态下的鼠标注视点数据。这一创新性数据资源的建立，不仅为显著性预测模型提供了丰富的训练与评估基准，也显著促进了跨模态感知计算的理论探索与应用实践。

当前挑战

在视频显著性预测领域，模型需精准捕捉时空维度上的动态注意力变化，同时整合音频线索以模拟真实观看环境，这对算法的多模态融合与长期依赖建模提出了严峻考验。数据集构建过程中，研究者面临多重挑战：首先，采集大规模、高质量的视听同步数据需克服设备同步、环境噪声控制等技术瓶颈；其次，标注超过70名观察者每视频的鼠标注视点，涉及复杂的实验设计与众包质量控制，以确保数据的可靠性与一致性；此外，处理全高清视频流带来的巨大存储与计算开销，以及设计无损压缩的显著性图表示方法，均对数据管理流程提出了高效且精确的要求。

常用场景

经典使用场景

在计算机视觉领域，视频显著性预测旨在模拟人类观察者在观看动态场景时的视觉注意力分布。VideoSaliencyChallenge数据集作为该领域的基准资源，其经典使用场景集中于训练和评估深度学习模型，以预测视频中每一帧的显著性区域。研究人员利用该数据集的大规模、高分辨率视频及伴随的音频轨道，结合来自超过5000名观察者的鼠标注视数据，构建能够准确捕捉时空视觉注意力的模型。这些模型通常采用卷积神经网络或时空Transformer架构，通过端到端学习，实现对视频内容中显著对象的自动检测与跟踪。

解决学术问题

该数据集有效解决了视频显著性预测中多个关键学术问题。首先，它通过提供包含音频的多模态数据，促进了视听融合显著性研究，探索声音如何影响视觉注意力分配。其次，大规模且多样化的视频内容（如电影、体育、直播和垂直视频）有助于克服模型过拟合特定场景的局限，提升泛化能力。此外，高精度的注视标注为量化模型性能提供了可靠基准，推动了标准化评估指标的发展。这些贡献显著深化了对人类视觉感知机制的理解，并为构建更鲁棒、自适应的视觉系统奠定了数据基础。

实际应用

在实际应用层面，VideoSaliencyChallenge数据集支撑了众多与视觉注意力相关的技术部署。在视频压缩与传输中，基于显著性预测的自适应码率分配能够优先保留关键区域，提升观看体验并节省带宽。在自动驾驶系统中，模型可识别道路场景中的潜在危险区域，辅助决策模块提高安全性。此外，在内容创作与广告投放领域，通过分析观众的注视热点，优化视频编辑与广告植入策略，增强传播效果。这些应用不仅提升了技术效率，也推动了人机交互界面的智能化发展。

数据集最近研究