Rakancorle11/VGGSoundSync

Name: Rakancorle11/VGGSoundSync
Creator: Rakancorle11
Published: 2026-04-10 19:11:38
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/Rakancorle11/VGGSoundSync

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - audio-classification tags: - vgg-sound-sync - audio-visual - synchronization pretty_name: VGG-Sound Sync test videos (packed) size_categories: - 1G<n<10G --- # VGG-Sound Sync — test video archive This dataset contains **pre-cut 10-second MP4 clips** aligned with the official VGG-Sound Sync test list ([Oxford VGG](https://www.robots.ox.ac.uk/~vgg/research/avs/)). ## Contents - `vggsoundsync_videos.tar.gz` — directory `videos/` with files named `{youtube_id}.mp4` - `vggsoundsync.csv` — official test CSV: `YouTube ID, start_seconds, label` - `metadata.csv` — subset of rows for which a file is present (`ytid, label`) Extract: ```bash tar -xzf vggsoundsync_videos.tar.gz ``` ## Citation VGG-Sound Sync (BMVC 2021): ```bibtex @InProceedings{Chen21b, title = {Audio-Visual Synchronization in the Wild}, author = {Honglie Chen and Weidi Xie and Triantafyllos Afouras and Arsha Nagrani and Andrea Vedaldi and Andrew Zisserman}, booktitle = {BMVC}, year = {2021} } ``` VGG-Sound (ICASSP 2020) for the underlying clips: ```bibtex @InProceedings{Chen20, author = {Honglie Chen and Weidi Xie and Andrea Vedaldi and Andrew Zisserman}, title = {VGG-Sound: A Large-scale Audio-Visual Dataset}, booktitle = {ICASSP}, year = {2020} } ``` ## Provenance Videos were extracted from the [Loie/VGGSound](https://huggingface.co/datasets/Loie/VGGSound) tarballs to match the VGG-Sound Sync test IDs. Packaged by Rakancorle11 for reproducible eval (e.g. CleverHans-Evaluation).

提供机构：

Rakancorle11

搜集汇总

数据集介绍

构建方式

在音频-视觉同步研究领域，VGGSoundSync数据集的构建体现了严谨的学术规范。该数据集源自大规模的VGGSound基础资源，研究者依据官方公布的测试列表，精准地截取了与之对应的10秒MP4视频片段。每个片段均通过YouTube标识符、起始时间戳及类别标签进行严格对齐与索引，确保了数据与原始研究基准的一致性。最终，这些经过裁剪和验证的片段被整合为压缩包格式，便于分發与复现。

特点

VGGSoundSync数据集的核心特点在于其专为音频-视觉同步任务设计的测试集属性。数据集包含一系列时长统一的10秒短视频，每个视频均伴有准确的音频流，构成了评估跨模态对齐算法的标准基准。其文件命名与元数据均与官方测试列表完全对应，提供了清晰的视频标识符和类别标签，保障了评估过程的可靠性与可比性。这种精心设计使得该数据集成为验证模型在真实、复杂场景下同步性能的理想工具。

使用方法

使用VGGSoundSync数据集时，研究者首先需解压提供的视频压缩包以获取MP4文件。随后，可结合附带的CSV元数据文件，其中详细列出了每个视频对应的YouTube标识符和类别标签，从而构建起结构化的测试样本集。该数据集主要用于音频-视觉同步模型的性能评估，研究者可以加载这些视频片段，提取其音频与视觉特征，进而计算或评估两者之间的同步关系，为相关算法的比较与改进提供坚实的实验基础。

背景与挑战

背景概述

VGGSoundSync数据集源于牛津大学视觉几何组（VGG）在音频-视觉交叉模态学习领域的持续探索。该数据集于2021年由Honglie Chen等研究人员在BMVC会议上正式提出，其核心研究问题聚焦于真实场景下的音频-视觉同步性验证。作为VGG-Sound数据集的延伸，VGGSoundSync通过精心裁剪的10秒视频片段，为多模态信号的时间对齐研究提供了标准化评估基准，显著推动了视听事件检测、跨模态表示学习等方向的发展。

当前挑战

该数据集旨在解决音频-视觉同步性判定这一复杂任务，其挑战在于如何准确建模动态场景中声音与视觉信号之间的微妙时序关系，尤其是在存在背景噪声、视觉遮挡或声源多样性的真实环境下。在构建过程中，研究者需从海量的网络视频中筛选并精确裁剪出时间对齐的片段，同时确保数据标注的时序精度与内容一致性，这一过程涉及大规模的视听信号处理与人工验证工作。

常用场景

经典使用场景

在音频-视觉同步研究领域，VGGSoundSync数据集作为基准测试资源，主要用于评估模型在自然场景下对齐音频与视频流的能力。其经典应用场景涉及训练和验证深度学习模型，以检测音画是否同步，例如在视频内容中识别声音事件与视觉动作的时间一致性。研究者利用该数据集的10秒剪辑片段，模拟真实世界中的复杂环境，推动多模态感知技术的进步。

衍生相关工作

VGGSoundSync数据集衍生了一系列经典研究工作，如基于深度学习的音频-视觉同步模型开发，包括时间对齐网络和跨模态注意力机制。相关研究扩展至视频生成、语音-嘴唇同步和多媒体检索等方向，例如利用该数据集训练模型以生成更自然的合成视频。这些工作构建了多模态人工智能的基础，促进了学术社区在音频-视觉融合领域的持续创新。

数据集最近研究