VABench

github2025-12-18 更新2025-12-26 收录

下载链接：

https://github.com/tanABCC/VABench

下载链接

链接失效反馈

官方服务：

资源简介：

VABench是一个全面的多维基准测试框架，旨在系统评估同步音频-视频生成的能力。它涵盖三种主要任务类型：文本到音频-视频（T2AV）、图像到音频-视频（I2AV）和立体音频-视频生成。该框架建立了两个主要评估模块，覆盖15个维度，包括成对相似性（文本-视频、文本-音频、视频-音频）、音频-视频同步、唇语一致性以及精心策划的音频和视频问答（QA）对等。此外，VABench涵盖七个主要内容类别：动物、人类声音、音乐、环境声音、同步物理声音、复杂场景和虚拟世界。

VABench is a comprehensive multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronized audio-visual generation. It covers three main task types: text-to-audio-visual (T2AV), image-to-audio-visual (I2AV), and stereoscopic audio-visual generation. The framework establishes two primary evaluation modules, covering 15 dimensions including pairwise similarity (text-video, text-audio, video-audio), audio-visual synchronization, lip-speech consistency, as well as carefully curated audio and visual question answering (QA) pairs, etc. Additionally, VABench encompasses seven main content categories: animals, human voices, music, environmental sounds, synchronized physical sounds, complex scenes, and virtual worlds.

创建时间：

2025-11-29

原始信息汇总

VABench: 音频-视频生成综合基准数据集概述

数据集基本信息

数据集名称：VABench
核心定位：一个用于系统评估同步音频-视频生成模型能力的综合性、多维度基准框架。

主要任务类型

VABench 涵盖三种主要的音频-视频生成任务类型：

文本到音频-视频生成
图像到音频-视频生成
立体声音频-视频生成

评估维度与模块

数据集建立了两个主要的评估模块，共覆盖 15个评估维度，具体包括：

成对相似性评估：文本-视频、文本-音频、视频-音频。
音频-视频同步性评估。
唇语-语音一致性评估。
精心设计的音频和视频问答对评估。

内容覆盖范围

VABench 覆盖了七个主要的内容类别：

动物
人声
音乐
环境声音
同步物理声音
复杂场景
虚拟世界

数据集目标

为具备同步音频能力的视频生成模型建立新的评估标准。
通过提供系统性的结果分析和可视化，推动该领域的全面进步。

引用信息

若使用本数据集，请引用以下论文：

@article{hua2025vabench, title={VABench: A Comprehensive Benchmark for Audio-Video Generation}, author={Hua, Daili and Wang, Xizhi and Zeng, Bohan and Huang, Xinyi and Liang, Hao and Niu, Junbo and Chen, Xinlong and Xu, Quanqing and Zhang, Wentao}, journal={arXiv preprint arXiv:2512.09299}, year={2025} }

搜集汇总

数据集介绍

构建方式

在音视频生成领域，现有基准多聚焦于视觉质量评估，而对同步音频生成能力的系统性评测尚存空白。VABench的构建旨在填补这一空白，其设计涵盖三大核心任务：文本到音视频生成、图像到音视频生成以及立体声音视频生成。数据集通过精心策划七个主要内容类别——包括动物、人声、音乐、环境声音、同步物理声音、复杂场景及虚拟世界，确保了评估内容的广泛性与代表性。构建过程中，团队建立了两个主要评估模块，覆盖十五个评估维度，这些维度专门用于衡量文本-视频、文本-音频、视频-音频之间的成对相似性，以及音视频同步、唇语一致性等关键指标，并精心编制了音视频问答对，从而形成了一个多维度的综合评估框架。

特点

VABench作为音视频生成领域的综合性基准，其突出特点在于评估维度的系统性与全面性。它不仅超越了传统视频生成基准仅关注视觉质量的局限，更将音频生成质量及其与视频的同步关系纳入核心评估体系。该基准通过涵盖七大类别的多样化内容，确保了评估场景的丰富性，能够有效反映模型在不同现实与虚拟情境下的生成能力。其设计的十五个评估维度，如音视频同步与唇语一致性，直接针对多模态生成模型的关键挑战，提供了精细化的性能剖析。这种多维度的评估结构为研究者提供了一个标准化、可复现的评测平台，有助于推动音视频同步生成技术的整体进步。

使用方法

研究者可利用VABench对具备音视频同步生成能力的模型进行系统性评估。使用该基准时，首先需将待评估模型在基准定义的三大任务类型上进行测试，即处理文本到音视频、图像到音视频及立体声音视频的生成请求。随后，模型生成的输出将依据基准提供的两个主要评估模块进行处理，该模块包含的十五个维度将自动或半自动地计算各项指标得分，包括多模态对齐度、同步质量及特定问答任务的准确性。用户可通过分析这些多维度的量化结果，全面了解模型在音视频生成各方面的优势与不足。基准提供的标准化流程与多样化内容类别，确保了评估结果的可比性与可靠性，为模型迭代与学术交流奠定了坚实基础。

背景与挑战

背景概述

随着视频生成技术的飞速发展，生成具有同步音频的视觉逼真视频已成为可能。然而，现有视频生成基准主要聚焦于视觉质量评估，缺乏对音视频同步生成模型能力的系统性评测。为填补这一空白，研究团队于2025年提出了VABench，这是一个专为同步音视频生成设计的综合性多维基准框架。该框架由文本到音视频、图像到音视频及立体声音视频生成三大任务构成，覆盖动物、人声、音乐、环境声等七大类内容，旨在通过15个维度的评估模块，系统衡量模型在文本-视频-音频对齐、唇语同步等方面的性能，为相关领域建立新的评估标准。

当前挑战

在音视频生成领域，核心挑战在于实现跨模态内容的高质量对齐与同步，例如确保生成的音频与视频在时序和语义上严格匹配，并维持唇部运动与语音的一致性。构建VABench数据集过程中，研究团队需克服多模态数据采集与标注的复杂性，包括设计涵盖多样场景的评估维度、创建精确的音频-视频问答对，以及确保评估指标既能反映感知质量又具备客观可度量性，这些工作对数据集的全面性与可靠性提出了较高要求。

常用场景

经典使用场景

在音视频生成研究领域，评估模型生成内容的质量与同步性一直是一项核心挑战。VABench作为综合性基准测试框架，其经典使用场景在于为文本到音视频、图像到音视频以及立体声音视频生成等任务提供系统化的多维评估。研究者利用其涵盖的七个主要内容类别和十五个评估维度，能够对生成模型的视听一致性、唇语同步以及跨模态语义对齐能力进行标准化测试与量化比较，从而为模型迭代与性能优化提供精确的参照依据。

衍生相关工作

VABench作为一项基准性工作，已经并预计将衍生出一系列围绕音视频生成评估与模型改进的经典研究。其多维度的评估体系可能启发后续工作发展更精细的同步性度量算法，或针对特定内容类别（如音乐生成、复杂物理声音模拟）设计专用子基准。同时，该基准所揭示的模型短板也可能驱动新一代生成架构的研发，例如专注于提升跨模态对齐或时序一致性的新型神经网络，从而在VABench奠定的评估基础上，持续推动整个音视频生成领域向更高保真度与更强可控性迈进。

数据集最近研究