AudioVisualMouseSaliency

Hugging Face2024-09-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ANDRYHA/AudioVisualMouseSaliency

下载链接

链接失效反馈

官方服务：

资源简介：

AViMoS数据集是一个用于ECCV-AIM 2024视频显著性预测挑战的新型音频-视觉鼠标显著性数据集。该数据集包含1500个视频，平均时长为19秒，所有视频均为全高清分辨率。视频内容多样，涵盖电影、体育、直播和垂直视频等。每个视频都包含一个音频轨道，观察者在观看视频时播放音频。数据集收集了来自超过5000名观察者的鼠标注视点，平均每个视频有超过70个注视点。数据集采用CC-BY许可。文件结构包括视频、训练/测试分割、显著性图、注视图和视频元数据。该数据集旨在用于视频显著性预测任务，并提供了详细的评估指南。

The AViMoS dataset is a novel audio-visual mouse saliency dataset for the ECCV-AIM 2024 Video Saliency Prediction Challenge. It contains 1500 videos with an average duration of 19 seconds, all at full high-definition resolution. The video content spans diverse categories, including films, sports, live broadcasts, and vertical videos. Each video includes an audio track played synchronously while observers watched the video. The dataset collected mouse gaze points from over 5,000 observers, with an average of more than 70 gaze points per video. The dataset is released under a CC-BY license. Its file structure encompasses videos, train/test splits, saliency maps, fixation maps, and video metadata. This dataset is designed for video saliency prediction tasks, and detailed evaluation guidelines are provided.

创建时间：

2024-09-13

原始信息汇总

AViMoS 数据集

概述

名称: AViMoS
许可证: CC-BY
规模: 1500 个视频，平均时长 19 秒
分辨率: 全高清 (FullHD)
音频: 包含音频轨道，观察者播放时开启声音
观察者: 超过 5000 名观察者，每个视频平均超过 70 名观察者

文件结构

Videos.zip - 包含 1500 个视频，分为 1000 个训练视频和 500 个测试视频。
TrainTestSplit.json - 提供所有视频的训练/公开测试/私有测试分割。
SaliencyTrain.zip/SaliencyTest.zip - 训练/测试子集的连续显著性图视频，几乎无损压缩。
FixationsTrain.zip/FixationsTest.zip - 包含训练/测试子集的以下文件：
- .../video_name/fixations.json - 每帧的注视点坐标，用于计算指标。
- .../video_name/fixations/ - 二进制注视图，以 .png 格式保存，用于可视化和帧数检查。
VideoInfo.json - 每个视频的元信息（如许可证）。

评估

环境设置

conda create -n saliency python=3.8.16 conda activate saliency pip install numpy==1.24.2 opencv-python==4.7.0.72 tqdm==4.65.0 conda install ffmpeg=4.4.2 -c conda-forge

运行评估

使用 bench.py 脚本进行评估，需提供预测的显著性视频和帧，以及相应的真实数据。

引用

@inproceedings{aim2024vsp, title={{AIM} 2024 Challenge on Video Saliency Prediction: Methods and Results}, author={Andrey Moskalenko and Alexey Bryncev and Dmitry Vatolin and Radu Timofte and Gen Zhan and Li Yang and Yunlong Tang and Yiting Liao and Jiongzhi Lin and Baitao Huang and Morteza Moradi and Mohammad Moradi and Francesco Rundo and Concetto Spampinato and Ali Borji and Simone Palazzo and Yuxin Zhu and Yinan Sun and Huiyu Duan and Yuqin Cao and Ziheng Jia and Qiang Hu and Xiongkuo Min and Guangtao Zhai and Hao Fang and Runmin Cong and Xiankai Lu and Xiaofei Zhou and Wei Zhang and Chunyu Zhao and Wentao Mu and Tao Deng and Hamed R. Tavakoli}, booktitle={Proceedings of the European Conference on Computer Vision (ECCV) Workshops}, year={2024} }

搜集汇总

数据集介绍

构建方式

AudioVisualMouseSaliency（AViMoS）数据集的构建过程体现了多模态数据融合的前沿理念。该数据集通过收集1500段视频，涵盖了电影、体育、直播及竖屏视频等多种内容类型，确保数据多样性。每段视频的平均时长为19秒，分辨率均为FullHD，并保留了音频轨道。数据采集过程中，超过5000名观察者参与了鼠标注视点的记录，每位观察者为每段视频提供了超过70个注视点数据。这些数据经过精心处理，生成了连续的显著性图，并通过JSON文件提供了详细的注视点坐标信息。

特点

AViMoS数据集以其多样性和规模著称，涵盖了广泛的视频内容类型，确保了数据的高代表性。所有视频均以FullHD分辨率呈现，并保留了音频信息，为多模态研究提供了丰富的素材。数据集中的注视点数据来自大量观察者，确保了显著性预测的可靠性。此外，数据集提供了详细的元信息文件，包括视频的授权信息，便于用户合规使用。显著性图和注视点数据以高精度压缩格式存储，既保证了数据的完整性，又降低了存储和处理的负担。

使用方法

使用AViMoS数据集时，用户需首先下载并解压视频文件、显著性图和注视点数据。数据集提供了训练集和测试集的划分文件，用户可根据需求选择相应的子集。显著性预测任务中，用户需生成与基准模型结构一致的预测结果，并通过提供的评估脚本进行性能验证。评估过程中，需确保预测结果与真实显著性图和注视点数据的格式一致。数据集的使用环境可通过Conda和Pip工具快速配置，支持Python 3.8及FFmpeg等依赖库。评估结果将以JSON格式输出，便于后续分析。

背景与挑战

背景概述

AudioVisualMouseSaliency（AViMoS）数据集由ECCV-AIM 2024视频显著性预测挑战赛推出，旨在解决视频显著性预测领域的核心问题。该数据集由多个研究机构联合创建，主要研究人员包括Andrey Moskalenko、Alexey Bryncev等。AViMoS数据集包含1500个视频，涵盖电影、体育、直播等多种内容类型，视频平均时长为19秒，分辨率均为FullHD。数据集还包含来自5000多名观察者的鼠标注视数据，每个视频平均有70多个观察者的注视点。该数据集的发布为视频显著性预测领域提供了丰富的数据支持，推动了相关算法的研究与发展。

当前挑战

AViMoS数据集在构建过程中面临多重挑战。首先，视频显著性预测本身是一个复杂的任务，涉及对视频内容的动态理解以及观察者视觉注意力的建模。其次，数据集的构建需要处理大量高分辨率视频和音频数据，确保数据的多样性和代表性。此外，收集和标注来自数千名观察者的鼠标注视数据，要求高精度的数据采集和处理技术，以避免数据噪声和偏差。最后，数据集的评估和基准测试需要设计复杂的计算流程，确保模型预测的准确性和一致性。这些挑战不仅体现在数据集的构建过程中，也反映了视频显著性预测领域的技术难点。

常用场景

经典使用场景

在视频显著性预测领域，AudioVisualMouseSaliency（AViMoS）数据集被广泛应用于训练和评估模型。该数据集包含了1500个视频，涵盖了电影、体育、直播等多种内容类型，且每个视频均配有音频轨道。通过收集超过5000名观察者的鼠标注视点数据，AViMoS为研究者提供了一个丰富的多模态显著性预测基准，尤其是在结合视觉和听觉信息进行显著性预测的场景中，该数据集展现了其独特的价值。

实际应用

在实际应用中，AViMoS数据集为视频内容分析、广告投放优化以及用户行为研究等领域提供了有力支持。例如，在视频广告领域，通过分析用户的视觉注意力分布，广告商可以优化广告的展示位置和时长，从而提高广告的点击率。此外，该数据集还可用于智能视频编辑，帮助自动生成符合用户视觉偏好的视频内容，提升用户体验。

衍生相关工作

基于AViMoS数据集，研究者们提出了多种创新的显著性预测模型。例如，一些工作通过引入多模态融合机制，显著提升了模型在复杂场景下的预测性能。此外，该数据集还催生了一系列关于视觉与听觉信息交互的研究，推动了多模态显著性预测领域的发展。这些衍生工作不仅丰富了显著性预测的理论框架，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集