T2VEval-Bench

Name: T2VEval-Bench
Creator: 中国传媒大学信息与通信工程学院
Published: 2025-01-15 11:11:33
License: 暂无描述

arXiv2025-01-15 更新2025-01-17 收录

下载链接：

http://arxiv.org/abs/2501.08545v1

下载链接

链接失效反馈

官方服务：

资源简介：

T2VEval-Bench是由中国传媒大学信息与通信工程学院构建的大规模文本生成视频评估基准数据集。该数据集包含148个文本提示和1783个由12个不同模型生成的视频，涵盖了人类、动物、景观和想象等四个主题。数据集通过主观评估收集了五个关键评分维度：整体印象、视频质量、美学质量、真实性和文本-视频一致性。数据集的创建过程包括文本提示生成、视频生成和主观评分收集，旨在解决文本生成视频质量评估中的复杂失真问题。该数据集的应用领域主要集中在文本到视频生成模型的优化和质量评估，为未来的研究提供了可重复且稳健的基准。

T2VEval-Bench is a large-scale text-to-video generation evaluation benchmark dataset constructed by the School of Information and Communication Engineering, Communication University of China. This dataset includes 148 text prompts and 1,783 videos generated by 12 distinct models, covering four themes: humans, animals, landscapes, and imaginative content. Subjective evaluations were conducted to collect five key scoring dimensions: overall impression, video quality, aesthetic quality, authenticity, and text-video consistency. The dataset creation process consists of text prompt generation, video generation and subjective scoring collection, aiming to resolve the complex distortion issues in the quality evaluation of text-to-video generation models. The main application scenarios of this dataset focus on the optimization and quality assessment of text-to-video generation models, providing a reproducible and robust benchmark for future research.

提供机构：

中国传媒大学信息与通信工程学院

创建时间：

2025-01-15

搜集汇总

数据集介绍

构建方式

T2VEval-Bench数据集的构建过程涵盖了四个核心环节：标准化评估维度、文本提示生成、视频生成以及主观评分收集。首先，研究者定义了五个评分维度，包括视频质量、美学质量、文本-视频一致性、真实性和整体印象，以全面评估文本生成视频的感知质量。其次，通过结合大语言模型（LLM）和人工验证，生成了100个涵盖人类、动物、景观和想象场景的文本提示，并补充了48个来自Sora的公开提示。随后，使用12个先进的文本到视频（T2V）模型生成了1,783个视频，并在严格控制的实验室环境中进行了主观评分实验，收集了超过58,660个原始评分。

使用方法

T2VEval-Bench数据集的使用方法主要包括主观和客观评估两个方面。在主观评估中，研究者可以通过分析数据集中的多维度评分，了解不同T2V模型在视频质量、美学质量、文本-视频一致性和真实性等方面的表现。在客观评估中，研究者可以利用T2VEval模型对视频进行自动化评分。T2VEval模型通过三个分支（视频质量、真实性和文本-视频一致性）提取特征，并通过注意力机制进行融合，最终通过大语言模型进行回归预测。该模型采用渐进式训练策略，确保各分支的独立性和协同性，从而实现对文本生成视频的精准评估。

背景与挑战

背景概述

T2VEval-Bench数据集由Zelu Qi等人于2025年提出，旨在解决文本生成视频（Text-to-Video, T2V）技术的质量评估问题。随着Gen3、Pika、Sora等T2V模型的快速发展，生成视频的视觉质量和文本一致性成为研究热点。然而，现有的评估方法难以全面捕捉生成视频中的复杂失真，如不自然的动作和违背人类认知的现象。为此，研究团队构建了T2VEval-Bench，包含148个文本提示和1,783个由12个模型生成的视频，并通过主观实验收集了五个关键评分维度：整体印象、视频质量、美学质量、真实性和文本-视频一致性。该数据集为T2V模型的优化提供了可靠的基准，推动了生成视频质量评估领域的发展。

当前挑战

T2VEval-Bench面临的挑战主要体现在两个方面。首先，文本生成视频的质量评估本身具有复杂性，生成视频中常出现违背物理规律或人类认知的失真，如不自然的动作或物体变形，这些失真难以通过传统视频质量评估方法捕捉。其次，数据集的构建过程也面临诸多挑战，包括如何设计多样化的文本提示以覆盖广泛的生成场景，以及如何确保主观评分的可靠性和一致性。此外，生成视频与真实视频在统计分布上的差异，使得直接应用传统视频质量评估模型效果不佳，亟需开发针对生成视频特性的评估方法。

常用场景

经典使用场景

T2VEval-Bench数据集主要用于评估文本生成视频（T2V）模型的生成质量。通过提供大规模的文本-视频对，该数据集为研究人员提供了一个标准化的评估平台，用于测试和比较不同T2V模型在视频质量、真实感、文本-视频一致性等方面的表现。数据集中的视频由12种不同的T2V模型生成，涵盖了人类、动物、风景和超现实场景等多种主题，确保了评估的多样性和全面性。

解决学术问题

T2VEval-Bench解决了文本生成视频领域中的关键学术问题，即如何准确评估生成视频的感知质量。传统的视频质量评估方法往往无法捕捉到T2V视频中的复杂失真，如不自然的动作或违背人类认知的现象。该数据集通过引入多维度的主观评分（如整体印象、视频质量、真实感等）和客观评估模型（T2VEval），为T2V模型的优化提供了科学依据，推动了该领域的研究进展。

实际应用

在实际应用中，T2VEval-Bench数据集为视频生成技术的商业化应用提供了重要支持。例如，在影视制作、广告创意和虚拟现实等领域，T2V技术可以大幅降低视频制作成本并提高创作效率。通过使用T2VEval-Bench，开发者能够评估和优化其T2V模型，确保生成的视频在视觉质量、真实感和文本一致性上达到用户期望，从而提升用户体验并推动技术的广泛应用。

数据集最近研究