Loie/VGGSound

Name: Loie/VGGSound
Creator: Loie
Published: 2023-03-26 13:25:40
License: 暂无描述

Hugging Face2023-03-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Loie/VGGSound

下载链接

链接失效反馈

官方服务：

资源简介：

VGGSound是一个音频-视觉对应数据集，包含从YouTube视频中提取的短音频片段。该数据集包含310多个类别的音频，涵盖多种具有挑战性的声学环境和噪声特征；包含超过200,000个视频，这些视频都是在自然环境中捕捉的，音频和视频内容具有对应关系；数据集总时长超过550小时，每个片段长度为10秒。

提供机构：

Loie

原始信息汇总

VGGSound 数据集概述

数据集基本信息

类型: 音频-视觉对应数据集
内容: 包含从YouTube视频中提取的短音频片段
大小: 100B<n<1T

数据集详细描述

类别数量: 超过310个类别
视频数量: 超过200,000个视频
总时长: 超过550小时
视频特性: 所有视频均为“野外”捕捉，音频与视觉来源对应明确
片段长度: 每个片段10秒

数据集下载

下载方式: 提供CSV文件，包含YouTube视频的URL、时间戳、音频标签及训练/测试分割信息
下载链接: VGGSound数据集下载

数据集许可

许可类型: Creative Commons Attribution 4.0 International License
版权归属: 视频原始所有者
完整许可文件: VGGSound许可文件

引用信息

@InProceedings{Chen20, author = "Honglie Chen and Weidi Xie and Andrea Vedaldi and Andrew Zisserman", title = "VGGSound: A Large-scale Audio-Visual Dataset", booktitle = "International Conference on Acoustics, Speech, and Signal Processing (ICASSP)", year = "2020", }

搜集汇总

数据集介绍

构建方式

VGGSound数据集的构建，旨在音频分类领域内，通过从YouTube上上传的视频中提取短音频片段，实现音频与视觉的对应。该数据集涵盖了逾200,000个视频，从中提取出550多个小时的音频与视频片段，每一段时长为10秒，确保了声音来源在视觉上的明显对应性。

特点

该数据集特色在于其包含310多个类别，跨越了众多具有挑战性的声学环境和真实应用中的噪声特征。所有视频均为实际捕捉，即所谓的'in the wild'，保证了数据集的多样性和实用性。此外，VGGSound提供了音频标签和训练/测试分割的csv文件，方便研究者进行数据集的划分和使用。

使用方法

使用VGGSound数据集时，用户可以直接从提供的仓库中下载csv文件，其中包含了YouTube视频的URL、时间戳、音频标签以及训练/测试的分割信息。用户可以根据这些信息，通过标准的机器学习流程来训练和测试音频分类模型，进而推进相关领域的研究工作。

背景与挑战

背景概述

VGGSound数据集，由牛津大学视觉几何组（Visual Geometry Group）的研究团队创建于2020年，旨在为音频视觉对应领域提供一种大规模的音频-视频片段集合。该数据集汇聚了310多个类别的音频，涵盖了实际应用中遇到的多种挑战性的声学环境和噪声特性。VGGSound数据集的建立，不仅丰富了音频识别领域的研究素材，也为音频与视觉信息联合分析提供了新的视角，对提升多模态信息处理技术产生了重要影响。

当前挑战

在研究领域中，VGGSound数据集所面临的挑战主要包括：首先，数据集的多样性带来了分类任务的复杂性，如何精确识别并分类大量的音频片段成为一大难题；其次，数据集构建过程中的音频与视频对应匹配问题，需要确保每个音频片段都能找到视觉上的对应源，这在处理野外捕获的视频时尤其困难；最后，数据集的大规模特性对计算资源提出了较高要求，如何高效地处理和存储成为技术上的挑战。

常用场景

经典使用场景

在音频分类研究领域，VGGSound数据集因其丰富的音频视觉对应样本而成为一项经典资源。该数据集由从YouTube视频中提取的短音频片段构成，每个片段时长为10秒，适用于音频识别与声音事件检测等任务，为研究人员提供了一个在复杂声学环境下进行模型训练和评估的理想平台。

解决学术问题

VGGSound数据集解决了音频分类任务中存在的多环境噪声适应性和声源识别准确性问题。其包含的310多个类别涵盖了广泛的声音事件，有助于学术研究中模型泛化能力的提升，同时也为声学环境下的噪声抑制和声音识别提供了丰富的训练样本。

衍生相关工作

VGGSound数据集催生了众多相关研究工作，如声音事件识别、音频-视觉联合学习等领域的研究成果。其独特的音频-视觉对应特性促进了跨模态学习的深入研究，并推动了音频识别技术在多模态信息处理中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集