vgg-monoaudio
收藏Hugging Face2026-02-08 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/jnwnlee/vgg-monoaudio
下载链接
链接失效反馈官方服务:
资源简介:
VGG-MonoAudio 是一个专为文本条件选择性视频到音频(V2A)生成设计的评估基准数据集。该数据集包含视频(包含多个可见声源)、文本(识别目标声源)和音频(仅包含干净、孤立的目标声音)的三元组。数据集通过从VGGSound和UnAV-100中视觉混合单源视频片段构建,同时仅保留目标声源的单一音频轨道。这种设计解决了现有数据集的局限性,如不可分离的音频混合或离屏噪声,使其成为评估对象选择性声音生成的精确标准。所有单源视频片段均经过人工专家的仔细筛选和验证。数据集包含1,071个8秒的混合视频,分为560个类间对和511个类内对,源自67个精选视频,包含39个独特的文本标签和8个声音类别。视频格式为1280×720分辨率,H.264编码,25帧/秒;音频为单声道,AAC编码,16kHz。数据集结构包括混合视频、目标音频、音频特征缓存和元数据文件。元数据文件包含文件名、目标文件、配对文件、目标位置、起始时间、标签、目标类别、配对类别和配对标签等字段。数据集的使用受原始Creative Commons Attribution 4.0 International License (CC BY 4.0)和源视频(YouTube)的服务条款约束。
创建时间:
2026-02-07
搜集汇总
数据集介绍

构建方式
在多媒体内容生成领域,精准评估模型对特定视觉对象的音频生成能力至关重要。VGG-MonoAudio数据集通过精心设计的视觉混合流程构建而成,其核心方法是从VGGSound和UnAV-100数据集中选取单一音源的视频片段,依据文本描述指定的目标声源,将目标视频与另一段视频在视觉层面进行合成,同时仅保留目标对象的纯净单声道音频轨道。所有混合视频片段均经过人工专家的严格筛选与验证,确保了数据的高质量与可靠性,最终形成了包含1,071个8秒视频样本的评估基准。
特点
该数据集的核心特征在于其三元组结构,即视频、文本与音频的精确对应。视频内容呈现多个可见声源,文本描述则明确标识目标声源,而音频仅包含目标对象的隔离纯净声音。这一设计有效克服了传统数据集中音频混合不可分离或存在画外噪音的局限,为对象选择性声音生成任务提供了精准的评估标准。数据样本进一步细分为跨类别与类内配对,涵盖39种独特文本标签与8种声音类别,在结构与内容上均体现了高度的系统性与多样性。
使用方法
为支持全面的模型评估,数据集提供了结构化的目录与丰富的预计算特征。研究者可直接使用混合视频文件与对应的目标音频进行端到端生成任务的训练与测试。同时,数据集附带了为FAD、KL、IS等多种音频评估指标预计算的视频、文本及音频特征缓存,显著简化了评估流程。通过解析元数据文件,用户可以获取每个样本的详细构建信息,包括目标与配对视频的来源、空间位置及类别标签,从而灵活地开展有针对性的分析与实验。
背景与挑战
背景概述
在多媒体生成与理解领域,视频到音频的合成技术正逐渐成为研究热点。VGG-MonoAudio数据集由Junwon Lee、Juhan Nam和Jiyoung Lee等研究人员于2025年构建,旨在为文本条件下的选择性视频到音频生成任务提供精准的评估基准。该数据集源于VGGSound和UnAV-100等现有资源,通过视觉混合单源视频片段并保留目标单声道音频,核心解决了在多声源视频中依据文本描述生成特定目标声音的难题。其设计不仅弥补了传统数据集中音频混合不可分离或存在画外噪音的缺陷,更为生成模型的细粒度控制与评估树立了新标准,对推动视听内容生成技术的发展具有显著影响力。
当前挑战
VGG-MonoAudio数据集致力于应对选择性视频到音频生成中的核心挑战,即在包含多个可视声源的复杂场景中,精准分离并生成与文本描述匹配的目标单声道音频。这一任务要求模型具备强大的跨模态对齐与声源分离能力,避免生成无关或混合的噪声。在构建过程中,研究人员面临的主要挑战包括:从原始视频中筛选并验证高质量的单源片段,确保音频的纯净性与视觉对应性;设计合理的视觉混合策略,以模拟真实世界中的多源共存场景,同时保持目标音频的独立性;以及建立全面且可靠的评估体系,涵盖如FAD、KL散度等多种指标,以量化生成音频的保真度与选择性。
常用场景
经典使用场景
在视听生成领域,VGG-MonoAudio数据集为文本条件选择性视频到音频生成任务提供了精准的评估基准。其经典使用场景集中于模型在复杂多源视频中,依据文本描述隔离并生成特定目标声音的能力验证。研究者通过该数据集的三元组结构——包含多声源视频、目标文本标签及纯净单声道音频,系统评估生成音频在语义对齐、声源分离度及保真度方面的表现,从而推动选择性听觉生成技术的迭代与优化。
实际应用
在实际应用层面,VGG-MonoAudio支撑着智能视频编辑、无障碍内容创作以及沉浸式媒体体验等场景。例如,在视频后期制作中,系统可依据脚本自动为特定视觉对象生成或替换匹配的孤立音效;在辅助技术中,能为视障用户突出讲解视频中的关键声源;在虚拟现实领域,则有助于构建声景与视觉对象精确同步的交互环境,增强用户体验的真实感与沉浸感。
衍生相关工作
围绕VGG-MonoAudio,已衍生出如SELVA等专注于文本条件选择性视频到音频生成的经典研究工作。这些工作通常利用该数据集评估其模型在跨模态对齐、声源解耦与生成方面的性能,推动了生成式音频模型在指标如Fréchet Audio Distance (FAD)、Kernel Alignment Distance (KAD)等方面的标准化测评。数据集的结构设计也启发了后续研究对混合视听数据中语义控制与音频分离问题的更深入探索。
以上内容由遇见数据集搜集并总结生成



