VGGSound-TVC

Name: VGGSound-TVC
Creator: 小米公司·MiLM Plus; 武汉大学
Published: 2026-04-16 22:47:24
License: 暂无描述

arXiv2026-04-16 更新2026-04-19 收录

下载链接：

https://yjx-research.github.io/ControlFoley/

下载链接

链接失效反馈

官方服务：

资源简介：

VGGSound-TVC是由小米公司MiLM Plus团队与武汉大学联合构建的首个专注于视频-文本语义冲突场景下音频生成可控性评估的基准数据集。该数据集基于VGGSound扩展，通过系统化设计不同等级的视觉-文本语义冲突样本，量化评估文本控制视频到音频生成模型的鲁棒性。数据集包含多模态对齐的视频-文本-音频三元组，重点解决现有方法在跨模态语义冲突时文本控制失效的问题，为可控音视频生成领域提供了标准化测试平台。

VGGSound-TVC is the first benchmark dataset dedicated to the controllability evaluation of audio generation in video-text semantic conflict scenarios, jointly constructed by the MiLM Plus team of Xiaomi Corporation and Wuhan University. Built upon the original VGGSound dataset, it systematically designs visual-text semantic conflict samples with varying degrees to quantitatively assess the robustness of text-controlled video-to-audio generation models. The dataset consists of multimodally aligned video-text-audio triplets, targeting the issue of text control failure of existing methods when encountering cross-modal semantic conflicts, thus providing a standardized testing platform for the field of controllable audio-visual generation.

提供机构：

小米公司·MiLM Plus; 武汉大学

创建时间：

2026-04-16

原始信息汇总

ControlFoley数据集概述

数据集基本信息

数据集名称: ControlFoley (ControlFoleyUnified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling)
主要作者: Jianxuan Yang, Xinyue Guo, Zhi Cheng, Kai Wang, Lipan Zhang, Jinjie Hu, Qiang Ji, Yihua Cao, Yihao Meng, Zhaoyue Cui, Mengmei Liu, Meng Meng, Jian Luan
所属机构: MiLM Plus, Xiaomi Inc.; Wuhan University
相关资源: 项目网站、arXiv论文、代码、模型
论文标题: ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling
arXiv标识: 2604.15086
年份: 2026

数据集核心内容与贡献

核心框架: ControlFoley，一个统一且可控的多模态视频到音频（V2A）生成框架，支持跨视频、文本和参考音频的精确控制。
关键贡献:
- 联合视觉编码以实现鲁棒的多模态控制: 提出结合CLIP和CAV-MAE-ST表示的双分支视觉编码范式，以缓解模态冲突并提高文本可控性。
- 以音色为中心的参考音频控制: 设计了一种抑制时间信息并提取全局音色表示的参考音频控制机制，实现精确的声学风格控制。
- 具有统一对齐的模态鲁棒训练: 引入了全模态丢弃策略和统一的REPA对齐目标，提高了不同模态组合下的鲁棒性和多模态一致性。
- VGGSound-TVC基准测试集: 构建了一个用于评估视觉-文本语义冲突下文本可控性的基准测试集，为TC-V2A提供了标准化测试平台。

支持的任务与样本

TV2A (文本引导的视频到音频): 在文本引导下为视频生成时间同步的音频。
TC-V2A (文本控制的视频到音频): 在视频-文本冲突下进行音频生成，要求语义与文本提示一致且时间与视频内容同步。
AC-V2A (音频控制的视频到音频): 以参考音频为条件生成音频，要求音色与参考音频一致且时间与视频内容同步。
样本展示: 每个任务下均提供了多个输入视频、提示（如适用）以及ControlFoley与多个基线模型（如MMAudio, HuyuanVideo-Foley, ThinkSound, AudioX, CondFoleyGen）的输出对比。

性能评估

TV2A任务评估:
- 评估基准: VGGSound-Test, Kling-Audio-Eval, MovieGen-Audio-Bench。
- 性能: 在所有基准测试中均达到最先进的性能，获得最高的CLAP分数和最低的DeSync。音频质量显著提升，在VGGSound上IS相对增益高达27%（22.08 vs. 17.36）。
TC-V2A任务评估:
- 评估基准: VGGSound-TVC数据集。
- 性能: 能有效平衡模态适应和生成质量，实现卓越的文本可控性。在冲突增加时，能减少对视觉信息的依赖（IB降低）同时保持强大的文本对齐（CLAP持续较高）。
AC-V2A任务评估:
- 评估基准: Greatest Hits数据集。
- 性能: 在所有评估指标（包括音色相似度Resemblyzer、时间同步DeSync和音频质量IS）上均取得最佳性能，展现出强大的泛化能力。

基准测试集 (VGGSound-TVC)

目的: 用于评估不同视觉-文本语义冲突级别下的文本可控性。
构建方法: 系统性地修改视频的文本描述，引入与视觉内容受控的语义差异，迫使模型平衡竞争模态。
冲突级别: 定义了四个冲突级别（L0–L3），从无冲突到强冲突，支持系统分析随着冲突增加模态主导性的变化。

使用数据与许可

使用的数据集: VGGSound, Kling-Audio-Eval, The Greatest Hits (CC BY 4.0), MovieGen-Audio-Bench (CC BY-NC 4.0)。
使用限制: 所有资源仅用于学术和非商业演示目的。

搜集汇总

数据集介绍

构建方式

VGGSound-TVC数据集构建于VGG-SS数据集基础之上，通过系统化地引入视觉与文本语义冲突来评估文本可控性。该数据集包含25,005个视频-文本对，源自5,001个视频，每个视频均配有五个文本变体，涵盖从无冲突（L0）到强冲突（L3）的四个语义冲突等级。文本标签的生成借助Gemini 2.5 Pro多模态大语言模型完成，并经过规则过滤与标准化处理，确保在保持声音时间结构（如节奏、持续时间）的前提下，逐步增强文本描述与视觉内容之间的语义差异。

特点

VGGSound-TVC的核心特点在于其专门针对文本可控视频到音频生成任务中的跨模态冲突评估而设计。数据集通过定义四个冲突等级（L0至L3），系统化地模拟了从语义一致到强烈冲突的多种场景，从而能够量化模型在视觉-文本语义不一致条件下的文本控制能力。此外，数据集保留了原始视频的音频-视觉对齐特性，所有文本变体均严格遵循VGG-Sound的标签格式（如“名词+动词-ing”），确保了评估的规范性与可复现性。

使用方法

该数据集主要用于评估文本可控视频到音频生成模型在跨模态冲突下的性能。研究人员可将VGGSound-TVC作为基准测试集，通过输入不同冲突等级的文本描述与对应视频，生成音频并计算语义对齐指标（如CLAP分数）、时间同步指标（如DeSync）以及音频质量指标（如IS分数），从而系统分析模型在文本控制与视觉依赖之间的平衡能力。数据集支持对TV2A、TC-V2A等任务的综合评估，为可控音频生成研究提供了标准化测试环境。

背景与挑战

背景概述

VGGSound-TVC数据集由小米MiLM Plus团队于2026年提出，作为ControlFoley框架的核心评估基准，旨在解决视频到音频生成领域中文本可控性的量化难题。该数据集基于VGGSound构建，通过引入视觉与文本语义冲突的层级化标注，系统化地评估模型在跨模态冲突下的文本引导能力。其创建推动了可控音频生成研究从被动对齐向主动引导的范式转变，为多模态生成模型的鲁棒性评估提供了标准化工具。

当前挑战

VGGSound-TVC数据集主要应对两大挑战：在领域问题层面，它致力于解决文本控制视频到音频生成中视觉主导效应的顽疾，即在视觉与文本语义冲突时模型难以遵循文本指令的挑战；在构建过程中，需精确设计不同层级的语义冲突标签，确保在改变语义类别的同时保持声学节奏与时间结构的匹配性，并利用大语言模型生成后经过规则过滤与标准化处理，以维持标注的可靠性与一致性。

常用场景

经典使用场景

在视频到音频生成领域，VGGSound-TVC数据集被设计用于评估模型在视觉与文本语义冲突下的文本控制能力。该数据集通过系统性地构建不同级别的视觉-文本语义冲突，为研究者提供了一个标准化的测试平台，以量化模型在跨模态冲突场景中遵循文本指令的鲁棒性。其经典使用场景包括训练和评估文本控制视频到音频生成模型，特别是在需要模型在视觉主导的输入中优先响应文本描述的创意应用中。

解决学术问题

VGGSound-TVC数据集解决了视频到音频生成中文本控制弱化的核心学术问题。传统方法在视觉与文本语义一致时表现良好，但在冲突场景下常出现视觉主导现象，导致文本控制失效。该数据集通过引入渐进式语义冲突，使研究者能够系统分析模型在跨模态冲突下的模态依赖行为，从而推动更鲁棒的控制机制发展。其意义在于填补了文本控制评估的空白，为可控生成领域提供了可量化的研究基础。

衍生相关工作

VGGSound-TVC数据集的推出催生了一系列围绕可控视频到音频生成的研究工作。例如，ControlFoley框架利用该数据集验证其联合视觉编码和时序-音色解耦策略的有效性，显著提升了文本控制性能。后续研究如基于对抗训练的跨模态对齐方法、多任务学习框架等，均借鉴了该数据集的冲突评估范式，推动了音频生成领域向更精细、可解释的控制方向发展，形成了以冲突处理为核心的技术演进路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集