T2V-CompBench

Name: T2V-CompBench
Creator: 香港大学, 香港中文大学, 华为诺亚方舟实验室
Published: 2024-07-20 01:58:36
License: 暂无描述

arXiv2024-07-20 更新2024-07-23 收录

下载链接：

https://t2v-compbench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

T2V-CompBench是由香港大学、香港中文大学和华为诺亚方舟实验室联合创建的一个综合性文本到视频生成基准数据集。该数据集包含700个文本提示，涵盖了七个类别，如一致属性绑定、动态属性绑定、空间关系等，旨在评估模型在复杂场景中生成视频的能力。数据集的创建过程中，特别强调了时间动态和动作动词的使用，确保每个提示至少包含一个动作动词。T2V-CompBench主要应用于文本到视频生成模型的评估和研究，旨在解决模型在组合生成方面的挑战。

T2V-CompBench is a comprehensive text-to-video generation benchmark dataset jointly created by The University of Hong Kong, The Chinese University of Hong Kong, and Huawei Noah's Ark Lab. This dataset contains 700 text prompts covering seven categories including consistent attribute binding, dynamic attribute binding, spatial relations and others, aiming to evaluate the video generation capabilities of models in complex scenarios. During the creation of the dataset, special emphasis was placed on temporal dynamics and the use of action verbs, ensuring that each prompt includes at least one action verb. T2V-CompBench is mainly applied to the evaluation and research of text-to-video generation models, with the purpose of addressing the challenges in compositional generation faced by such models.

提供机构：

香港大学, 香港中文大学, 华为诺亚方舟实验室

创建时间：

2024-07-20

搜集汇总

数据集介绍

构建方式

T2V-CompBench数据集的构建方式是通过GPT-4模型生成包含多个对象、属性、动作、交互和时空动态的文本提示，这些提示被分为七个类别，每个类别包含100个文本提示。在构建提示时，强调了时间动态并保证每个提示至少包含一个动作动词。这七个类别分别是：一致性属性绑定、动态属性绑定、空间关系、动作绑定、运动绑定、对象交互和生成性数值。所有生成的提示都经过人工验证，确保质量。此外，该数据集还设计了一套评估指标，包括基于多模态大型语言模型（MLLM）的指标、基于检测的指标和基于跟踪的指标，以更好地反映七个提出类别的生成性文本到视频生成的质量。

特点

T2V-CompBench数据集的特点是全面性和复杂性。它涵盖了组成性文本到视频生成的各个方面，包括一致性属性绑定、动态属性绑定、空间关系、动作绑定、运动绑定、对象交互和生成性数值。该数据集的提示涵盖了多种对象、属性、动作、交互和时空动态，为生成性文本到视频生成模型提供了全面的评估。此外，该数据集还设计了一套评估指标，包括基于多模态大型语言模型（MLLM）的指标、基于检测的指标和基于跟踪的指标，以更好地反映七个提出类别的生成性文本到视频生成的质量。

使用方法

T2V-CompBench数据集的使用方法包括以下几个方面：1）生成文本提示：使用GPT-4模型生成包含多个对象、属性、动作、交互和时空动态的文本提示，这些提示被分为七个类别，每个类别包含100个文本提示。2）评估指标：设计了一套评估指标，包括基于多模态大型语言模型（MLLM）的指标、基于检测的指标和基于跟踪的指标，以更好地反映七个提出类别的生成性文本到视频生成的质量。3）模型评估：在T2V-CompBench数据集上评估各种文本到视频生成模型的性能，并进行深入分析和比较。4）模型改进：基于评估结果，改进生成性文本到视频生成模型，以提高模型的组成性和生成性。

背景与挑战

背景概述

T2V-CompBench是一个由香港大学、香港中文大学和华为诺亚方舟实验室的研究人员共同创建的综合文本到视频生成基准数据集。该数据集旨在解决当前文本到视频生成模型在复杂场景中准确描绘多个对象、属性和动作的能力不足的问题。T2V-CompBench包含700个文本提示，分为七个类别，每个类别包含100个文本提示，涵盖了属性绑定、动态属性绑定、空间关系、动作绑定、运动绑定、对象交互和生成数值等方面。该数据集的创建标志着对文本到视频生成模型的综合性和动态性评估迈出了重要的一步，为相关领域的研究提供了宝贵的资源。

当前挑战

T2V-CompBench面临的主要挑战包括：1)所解决的领域问题：如何准确评估文本到视频生成模型的综合性和动态性，特别是在包含多个对象、属性和动作的复杂场景中。2)构建过程中所遇到的挑战：如何设计有效的评估指标来反映模型的综合性和动态性，以及如何解决现有评估指标无法完全反映模型在复杂场景中的表现的问题。

常用场景

经典使用场景

T2V-CompBench数据集被设计用于评估和提升文本到视频生成模型在合成场景下的表现。该数据集通过包含多个对象、属性、动作、交互和时空动态的复杂场景，挑战模型在生成视频时对文本描述的理解和执行能力。例如，数据集中的动态属性绑定类别要求模型生成一个视频，其中对象的属性会随时间变化，如树叶从绿色变成红色。这样的场景可以帮助研究者评估模型在处理复杂动态变化时的表现。

衍生相关工作

T2V-CompBench数据集衍生了多项相关工作，如VideoTetris模型，该模型通过时空合成扩散框架来实现合成文本到视频的生成。此外，LVD模型利用LLM引导的布局规划来生成包含多个对象的视频。这些相关工作推动了文本到视频生成模型在合成场景下的研究和发展。

数据集最近研究