VBench++

Name: VBench++
Creator: 南洋理工大学和上海人工智能实验室
Published: 2024-11-21 01:54:41
License: 暂无描述

arXiv2024-11-21 更新2024-11-22 收录

下载链接：

https://github.com/Vchitect/VBench

下载链接

链接失效反馈

官方服务：

资源简介：

VBench++是由南洋理工大学和上海人工智能实验室联合创建的综合视频生成模型评估基准。该数据集包含16个维度，每个维度有约100个文本提示，用于评估视频生成模型的性能。数据集内容涵盖视频质量、视频条件一致性等多个方面，旨在通过细粒度的评估方法揭示模型的优缺点。创建过程中，研究团队设计了多层次的评估维度，并通过人类偏好注释验证了评估结果与人类感知的一致性。VBench++的应用领域广泛，旨在解决视频生成模型评估中的关键问题，如技术质量评估和模型可信度评估。

VBench++ is a comprehensive video generation model evaluation benchmark jointly developed by Nanyang Technological University and Shanghai AI Laboratory. This dataset comprises 16 dimensions, each with approximately 100 text prompts, designed to evaluate the performance of video generation models. The dataset covers multiple aspects such as video quality and video conditional consistency, aiming to uncover the strengths and limitations of models through fine-grained evaluation methods. During its creation, the research team designed multi-level evaluation dimensions, and verified the consistency between the evaluation results and human perception via human preference annotations. VBench++ has a wide range of application scenarios, aiming to address core issues in video generation model evaluation, such as technical quality assessment and model credibility assessment.

提供机构：

南洋理工大学和上海人工智能实验室

创建时间：

2024-11-21

原始信息汇总

VBench 数据集概述

数据集简介

VBench 是一个用于视频生成模型的综合基准测试套件。它设计了一个全面且分层的评估维度套件，将“视频生成质量”分解为多个明确定义的维度，以促进细粒度和客观的评估。每个维度和每个内容类别，都精心设计了一个提示套件作为测试用例，并从一组视频生成模型中采样生成的视频。

数据集内容

评估维度：包括 subject_consistency, background_consistency, temporal_flickering, motion_smoothness, dynamic_degree, aesthetic_quality, imaging_quality, object_class, multiple_objects, human_action, color, spatial_relationship, scene, temporal_style, appearance_style, overall_consistency 等16个维度。
提示套件：为每个维度和内容类别设计了测试用例。
生成的视频：从一组视频生成模型中采样生成的视频。
评估方法套件：为每个评估维度设计了特定的评估方法或指定的流水线，用于自动客观评估。

数据集下载

视频数据：所有用于VBench评估的视频均可从Google Drive下载。

数据集更新

VBench++：于2024年11月发布，支持更广泛的视频生成任务，包括文本到视频和图像到视频，并评估生成模型的可信度。
VBench-Long Leaderboard：于2024年9月发布，包含10个长视频生成模型。
VBench Leaderboard：于2024年8月更新，包含28个T2V模型和12个I2V模型。

数据集使用

安装：通过pip安装vbench，并根据需要安装detectron2。
评估：支持自定义视频评估和标准提示套件评估。

引用

如果使用该数据集，请引用以下论文： bibtex @InProceedings{huang2023vbench, title={{VBench}: Comprehensive Benchmark Suite for Video Generative Models}, author={Huang, Ziqi and He, Yinan and Yu, Jiashuo and Zhang, Fan and Si, Chenyang and Jiang, Yuming and Zhang, Yuanhan and Wu, Tianxing and Jin, Qingyang and Chanpaisit, Nattapol and Wang, Yaohui and Chen, Xinyuan and Wang, Limin and Lin, Dahua and Qiao, Yu and Liu, Ziwei}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2024} }

@article{huang2024vbench++, title={VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models}, author={Huang, Ziqi and He, Yinan and Yu, Jiashuo and Zhang, Fan and Si, Chenyang and Jiang, Yuming and Zhang, Yuanhan and Wu, Tianxing and Jin, Qingyang and Chanpaisit, Nattapol and Wang, Yaohui and Chen, Xinyuan and Wang, Limin and Lin, Dahua and Qiao, Yu and Liu, Ziwei}, journal={arXiv preprint arXiv:2411.13503}, year={2024} }

搜集汇总

数据集介绍

构建方式

VBench++数据集的构建方式体现了对视频生成模型评估的全面性和细致性。该数据集通过将‘视频生成质量’分解为16个具体、层次分明且相互独立的维度，每个维度都配备了专门的提示和评估方法。这些维度涵盖了从主体身份一致性、运动平滑度到时间闪烁和空间关系等多个方面。此外，VBench++还提供了人类偏好注释数据集，以验证其评估方法与人类感知的一致性。数据集的构建过程还包括对当前模型在各个评估维度上的能力进行深入分析，以及对视频生成与图像生成模型之间差异的研究。

特点

VBench++数据集的主要特点在于其全面性和多维度评估能力。它不仅涵盖了视频生成的技术质量，还评估了生成模型的可信度，包括文化公平性、人类偏见和内容安全性。数据集的另一个显著特点是其与人类感知的高度一致性，通过大规模的人类偏好注释验证了其评估结果的可靠性。此外，VBench++支持多种视频生成任务，包括文本到视频和图像到视频的生成，并提供了高质量的图像套件，以确保在不同设置下的公平评估。

使用方法

VBench++数据集的使用方法包括对视频生成模型在各个评估维度上的性能进行量化评估。用户可以通过数据集提供的提示套件和生成视频，利用评估方法套件进行自动目标评估。此外，数据集还提供了人类偏好注释，用户可以利用这些注释来微调生成或评估模型，以增强其与人类感知的一致性。VBench++还持续更新其排行榜，鼓励更多的视频生成模型参与挑战，推动视频生成领域的发展。

背景与挑战

背景概述

VBench++，由Ziqi Huang、Fan Zhang等研究人员于2015年提出，是一个综合且多功能的视频生成模型基准测试套件。该数据集的创建旨在解决视频生成模型评估中的关键挑战，特别是现有评估指标与人类感知不一致的问题。VBench++通过将‘视频生成质量’分解为具体的、分层的和解耦的维度，每个维度都有特定的提示和评估方法，从而提供了一个全面的评估框架。该数据集不仅涵盖了视频生成的技术质量，还包括了生成模型的可信度评估，为视频生成领域的未来发展提供了宝贵的见解。

当前挑战

VBench++面临的挑战主要集中在两个方面：一是解决视频生成领域中现有评估指标与人类判断不一致的问题；二是构建过程中需要设计详细的提示和评估方法，以确保每个维度的评估都能准确反映模型的强项和弱项。此外，数据集还需要处理不同内容类型和生成任务的多样性，确保评估的全面性和公平性。通过引入高质量的图像套件和适应性分辨率，VBench++旨在为不同设置下的图像到视频生成模型提供公平的评估。

常用场景

经典使用场景

VBench++ 数据集在视频生成模型的评估中展现了其经典应用场景。该数据集通过将视频生成质量分解为具体的、分层的和解耦的维度，为每个维度提供了定制的提示和评估方法。例如，在评估视频质量时，VBench++ 涵盖了主体身份一致性、运动平滑度、时间闪烁和空间关系等多个维度。这些维度的细粒度评估揭示了各个模型在视频生成中的优势和劣势，从而为模型的改进提供了宝贵的见解。

实际应用

VBench++ 数据集在实际应用中具有广泛的应用场景。例如，在社交媒体和教育领域，视频生成模型的可信度至关重要。VBench++ 通过评估模型的安全性、文化公平性和人类偏见，确保生成的内容在这些应用中是公平和无害的。此外，该数据集的高质量图像套件支持自适应分辨率和宽高比，使得在不同设置下的图像到视频生成模型的评估更加公平和准确。

衍生相关工作

VBench++ 数据集的发布催生了一系列相关的经典工作。例如，基于 VBench++ 的评估方法，研究者们开发了新的视频生成模型，如 LaVie 和 ModelScope，这些模型在多个评估维度上表现出色。此外，VBench++ 还启发了对视频和图像生成模型之间差异的研究，以及对视频生成模型在不同内容类别中表现的深入分析。这些研究不仅提升了视频生成技术的水平，也为未来的研究方向提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集