CrowdSAL

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/ANDRYHA/CrowdSAL

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdSAL 是目前最大的视频显著性检测数据集，具有以下关键特点：数据集规模庞大，包含5000个视频，平均时长18.4秒，总计超过2.7M帧；收集了超过19000名观察者的鼠标固定点数据（每个视频超过75个观察者）；所有视频均包含音频轨道并播放给观察者；视频分辨率为FullHD；内容来源多样，包括YouTube、Shorts和Vimeo；数据采用CC-BY许可协议。数据集文件结构包括：Train/Test文件夹（数据集划分，ID 0001-3000为训练集，3001-5000为测试集）、Videos文件夹（5000个mp4格式的FullHD视频，30 FPS，含音频流）、Saliency文件夹（5000个几乎无损压缩的连续显著性图视频）、Fixations文件夹（5000个JSON文件，包含每帧的固定点坐标，用于生成显著性图）以及metadata.jsonl文件（每个视频的元信息，如许可、来源URL等）。该数据集适用于视频显著性检测任务，并提供了基准评估的环境设置和运行方法。

创建时间：

2026-04-06

搜集汇总

数据集介绍

构建方式

在视觉显著性研究领域，构建高质量数据集是推动算法发展的基石。CrowdSAL数据集的构建采用了严谨的众包采集范式，从YouTube、Shorts和Vimeo等平台精选了5000段视频，内容涵盖多样场景。每段视频平均时长为18.4秒，均以FullHD高分辨率保存并包含音频轨道。通过大规模在线实验，邀请了超过19000名观察者参与眼动数据收集，每位观察者为每段视频提供了鼠标点击形式的注视点数据，最终累积了超过270万帧的视觉显著性标注，形成了连续且精细的显著性图谱。

特点

该数据集在视频显著性领域展现出显著优势，其规模庞大，包含5000段视频与超过270万帧图像，是目前最大的公开视频显著性数据集。数据标注基于众包模式，每段视频平均由超过75名观察者提供注视点坐标，确保了标注的可靠性与多样性。所有视频均保留音频信息且为FullHD高清格式，内容来源广泛，覆盖了不同平台与场景，增强了数据的代表性与泛化能力。数据集采用CC-BY许可协议，支持学术与商业用途的灵活访问。

使用方法

使用CrowdSAL数据集时，研究人员需首先下载并解压数据集文件，其结构清晰划分为训练集与测试集，分别包含视频、显著性图谱、注视点坐标及元数据。进行算法评估前，需配置Python环境并安装指定依赖库，包括NumPy、OpenCV及FFmpeg等工具。通过运行提供的基准测试脚本，用户可将模型预测的显著性视频与数据集中的真实标注进行对比，脚本支持指定预测文件夹、真实标注路径及输出结果文件，最终生成标准化的评估指标，便于模型性能的客观比较与迭代优化。

背景与挑战

背景概述

视频显著性检测作为计算机视觉领域的关键研究方向，旨在模拟人类视觉系统对动态场景中信息焦点的捕捉机制。CrowdSAL数据集由密歇根州立大学视频处理研究团队于近年构建，其核心研究问题聚焦于解决现有视频显著性数据规模有限、标注多样性不足的瓶颈。该数据集通过整合来自YouTube、Shorts和Vimeo平台的5000个全高清视频，并采集超过19000名观察者的鼠标注视数据，显著提升了视频显著性模型的训练可靠性与泛化能力，为动态视觉注意力建模提供了前所未有的数据支撑，推动了自动驾驶、视频压缩等应用领域的技术演进。

当前挑战

在视频显著性检测领域，模型需克服动态场景中时空注意力漂移、多模态信息融合以及实时处理效率等核心难题。CrowdSAL的构建过程同样面临严峻挑战：首先，大规模高质量注视数据的采集需协调数万名观察者，并确保实验环境与设备的一致性；其次，视频内容的版权合规性与多样性平衡要求严格的源头筛选与元数据标注；此外，全高清视频流与连续显著性图的存储优化、以及注视坐标到概率密度图的精确转换，均涉及复杂的算法工程与计算资源调度。这些挑战共同塑造了数据集在规模与质量上的双重突破。

常用场景

经典使用场景

在视频显著性检测领域，CrowdSAL数据集凭借其大规模、高分辨率的视频序列及丰富的注视点数据，成为模型训练与评估的黄金标准。研究者通常利用该数据集训练深度学习模型，以预测人类在观看视频时的视觉注意力分布，进而优化视频编码、压缩和内容理解等任务。其包含的音频轨道与多样化视频来源，使得模型能够学习跨模态的显著性特征，推动视频显著性检测技术向更真实、更复杂场景演进。

解决学术问题

CrowdSAL数据集有效解决了视频显著性研究中数据规模不足、标注质量参差不齐的瓶颈问题。通过提供超过5000个高清视频及超过19000名观察者的注视点数据，该数据集支持大规模监督学习，促进了显著性预测模型的泛化能力与鲁棒性提升。其公开的基准评估框架，为学术界提供了统一的性能比较标准，加速了视频注意力建模、跨模态融合及人类视觉系统模拟等核心问题的探索与突破。

衍生相关工作

围绕CrowdSAL数据集，已衍生出一系列经典的学术工作，包括基于时空注意力的视频显著性预测模型、跨模态音频-视觉融合框架以及高效视频压缩算法。这些研究不仅拓展了显著性检测在动态场景中的应用边界，还促进了相关基准工具与评估指标的完善。部分工作进一步将数据集应用于视频摘要、异常检测与视觉质量评估等交叉领域，形成了以人类注意力机制为核心的计算视觉研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集