CrowdSAL

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/msu-video-group/CrowdSAL

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdSAL是最大的视频显著性数据集，具有以下关键特点： * 大规模：5000个视频，平均时长18.4秒，270万+帧； * 来自19000多名观察者的鼠标注视点（每个视频超过75个）； * 保存并向观察者播放音频轨道； * 高分辨率：所有流均为FullHD； * 来自YouTube、Shorts、Vimeo的多样化内容； * 许可证：CC-BY。

CrowdSAL is the largest video saliency dataset with the following key characteristics: * Large-scale: 5000 videos with an average duration of 18.4 seconds and over 2.7 million frames; * Mouse fixation data from more than 19,000 observers, with over 75 annotations per video; * Audio tracks were preserved and played back to the observers; * High resolution: All streams are FullHD; * Diverse content sourced from YouTube, Shorts, and Vimeo; * License: CC-BY.

创建时间：

2026-04-07

原始信息汇总

CrowdSAL 数据集概述

数据集基本信息

数据集名称：CrowdSAL
全称：CrowdSAL: Video Saliency Dataset and Benchmark
性质：视频显著性数据集与基准测试
许可协议：CC-BY

核心特征

规模庞大：包含 5000 个视频，平均时长 18.4秒，总帧数超过 270万。
注视点数据：收集自 超过19000 名观察者（平均每个视频 超过75 名）。
音频信息：视频包含音频轨道，并在观察者观看时播放。
高分辨率：所有视频流均为 FullHD 分辨率。
内容多样性：视频内容来源于 YouTube、Shorts、Vimeo 等多个平台。

数据集文件结构

Train/Test 文件夹：数据集划分。ID 0001-3000 属于训练集，ID 3001-5000 属于测试集。
Videos 文件夹：包含 5000 个 MP4 格式的 FullHD、30 FPS 视频文件，带有音频流。
Saliency 文件夹：包含 5000 个 MP4 格式的连续显著性图视频。采用近乎无损压缩（crf 0，10bit，最小-最大归一化）。
Fixations 文件夹：包含 5000 个 JSON 文件，记录了每帧的注视点坐标，显著性图由此生成。
metadata.jsonl 文件：包含每个视频的元信息（例如许可协议、来源 URL 等）。

基准测试评估

环境配置

需创建 Python 3.10.19 环境，并安装指定版本的 numpy、opencv-python-headless、tqdm 和 ffmpeg。

运行评估

确保预测结果的结构和文件名与测试集子集匹配。
安装所有环境依赖。
下载并解压数据集所有文件。
运行 python bench.py 脚本，并提供必要的参数：
- --model_video_predictions：包含预测显著性视频的文件夹。
- --model_extracted_frames：用于存储预测帧的文件夹（运行前不应存在）。
- --gt_video_predictions：数据集中包含真实显著性视频的文件夹。
- --gt_extracted_frames：用于存储真实帧的文件夹（运行前不应存在）。
- --gt_fixations_path：数据集中包含真实显著性注视点的文件夹。
- --mode：训练集或测试集划分模式。
- --results_json：输出结果 JSON 文件的路径。
评估结果将保存在指定的 results_json 路径中。

数据获取

项目页面：https://videoprocessing.ai/datasets/crowdsal.html
Google Drive：https://drive.google.com/drive/folders/1daH-14w_vHLc9OuGQ_RU0HgUv_Wc3G0o?usp=sharing
Hugging Face Datasets：https://huggingface.co/datasets/ANDRYHA/CrowdSAL

搜集汇总

数据集介绍

构建方式

在视频显著性检测领域，数据集的构建需兼顾规模与质量。CrowdSAL的构建过程系统而严谨，研究团队从YouTube、Shorts和Vimeo等平台精心选取了5000个视频，内容涵盖多样场景以确保广泛代表性。每个视频均以FullHD高分辨率保存，并保留了音频轨道，以模拟真实观看环境。通过大规模众包实验，超过19000名观察者参与了数据标注，平均每个视频由超过75人提供鼠标注视点数据。这些原始的注视点坐标被记录在JSON文件中，并进一步合成为几乎无损压缩的连续显著性图视频，最终形成了包含2.7M+帧的大规模数据集。

特点

CrowdSAL作为当前最大的视频显著性数据集，其核心特点体现在规模与细节的卓越平衡。数据集囊括5000个平均时长18.4秒的视频，总帧数超过270万，为模型训练提供了充足的样本。所有视频均采用FullHD分辨率并包含音频流，显著提升了生态效度。数据标注基于大规模众包收集的鼠标注视点，确保了显著性图的真实性与可靠性。此外，数据集内容来源多样，覆盖多个主流视频平台，增强了其普适性。数据集采用CC-BY许可协议，促进了学术界的开放共享与协作研究。

使用方法

该数据集的使用遵循清晰的结构化流程，主要服务于模型训练与基准评估。数据集已预先划分为训练集（ID 0001-3000）和测试集（ID 3001-5000），用户可据此进行模型开发与验证。数据文件组织有序，包含原始视频、显著性图视频、注视点JSON文件及元数据。进行基准评估时，需首先配置指定的Python环境并安装依赖库。用户需将模型预测的显著性视频整理为与测试集一致的结构，随后运行提供的评估脚本，通过指定预测路径、真实标注路径及输出结果路径等参数，即可自动化计算性能指标并生成评估报告。

背景与挑战

背景概述

视频显著性检测作为计算机视觉领域的关键研究方向，致力于模拟人类视觉系统在动态场景中的注意力分配机制。CrowdSAL数据集由相关研究团队于近年构建，作为当前规模最大的视频显著性数据集，其核心研究问题聚焦于提升动态视觉内容中显著性预测的准确性与泛化能力。该数据集汇集了来自YouTube、Shorts及Vimeo平台的5000段全高清视频，并采集了超过19000名观察者的鼠标注视数据，为视频理解、内容压缩及人机交互等应用提供了坚实的实验基础，显著推动了视觉注意力建模领域的发展。

当前挑战

视频显著性检测领域长期面临动态场景复杂度高、时空注意力机制建模困难等挑战，CrowdSAL旨在通过大规模真实世界视频数据应对这些难题。在数据集构建过程中，研究团队需克服多源视频内容整合、海量注视数据的高精度采集与同步，以及连续显著性地图的无损压缩等技术障碍，确保数据的一致性与可用性。这些挑战的解决为后续模型训练与评估设立了更为严谨的基准。

常用场景

经典使用场景

在视觉注意力研究领域，CrowdSAL数据集以其大规模、高分辨率的视频序列和丰富的眼动追踪数据，为视频显著性预测模型的训练与评估提供了坚实基础。研究者通常利用该数据集中的5000个全高清视频及其对应的连续显著性图，构建端到端的深度学习框架，以模拟人类观察者在动态场景中的视觉关注模式。通过分析超过19000名参与者的鼠标注视点数据，模型能够学习时空上下文中的显著性分布规律，进而优化预测精度，推动视频内容理解的前沿进展。

衍生相关工作

围绕CrowdSAL数据集，学术界已衍生出一系列经典研究工作，包括基于时空卷积网络的视频显著性预测模型、融合音频特征的跨模态注意力框架，以及利用生成对抗网络合成逼真显著性图的方法。这些工作不仅推动了数据驱动型显著性检测算法的发展，还促进了与其他计算机视觉任务的交叉融合，如视频摘要、行为识别和场景理解，进一步拓展了视觉注意力模型的应用边界与理论内涵。

数据集最近研究