Large-scale Generated Video Quality assessment (LGVQ)

Name: Large-scale Generated Video Quality assessment (LGVQ)
Creator: 研究机构未明确提及
Published: 2024-07-31 15:54:26
License: 暂无描述

arXiv2024-07-31 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.21408v1

下载链接

链接失效反馈

官方服务：

资源简介：

LGVQ数据集是由多个研究机构合作构建的大规模生成视频质量评估数据集，包含2808个AI生成的视频，这些视频由6种主流文本到视频生成算法基于468个文本提示生成。数据集的创建旨在从主观和客观角度系统地研究AI生成视频的质量评估问题。数据集的创建过程包括选择文本提示、生成视频、以及邀请54名参与者对视频的空间质量、时间质量和文本到视频的对齐质量进行评分。LGVQ数据集主要应用于视频生成技术的质量评估，旨在解决AI生成视频的质量评估难题，特别是在捕捉复杂失真和语义层面质量特征方面。

The LGVQ dataset is a large-scale generative video quality assessment dataset collaboratively constructed by multiple research institutions. It contains 2808 AI-generated videos, which were created based on 468 text prompts using six mainstream text-to-video generation algorithms. The dataset was developed to systematically study the quality assessment of AI-generated videos from both subjective and objective perspectives. The construction process of the dataset includes selecting text prompts, generating videos, and inviting 54 participants to score the videos on spatial quality, temporal quality, and text-to-video alignment quality. The LGVQ dataset is mainly applied to the quality assessment of video generation technologies, aiming to solve the challenges in quality assessment of AI-generated videos, particularly in capturing complex distortions and semantic-level quality features.

提供机构：

研究机构未明确提及

创建时间：

2024-07-31

搜集汇总

数据集介绍

构建方式

LGVQ数据集的构建旨在系统性地研究AIGC视频质量评估问题，从主观和客观两个角度进行。该数据集由2,808个AIGC视频组成，这些视频是由6种视频生成模型使用468个精心挑选的文本提示生成的。与之前的VQA实验不同，LGVQ数据集从三个维度评估AIGC视频的感知质量：空间质量、时间质量和文本到视频的对齐度，这三个维度对当前视频生成技术至关重要。

使用方法

使用LGVQ数据集的方法包括主观质量评估和客观质量评估。主观质量评估涉及邀请参与者对每个视频的空间质量、时间质量和文本到视频的对齐度进行评分。客观质量评估则是在LGVQ数据集上测试现有的质量评估指标，以分析它们在评估AIGC视频质量方面的能力。此外，还可以使用UGVQ模型进行综合评估，该模型能够同时评估AIGC视频的三个质量维度。

背景与挑战

背景概述

随着生成模型和数字媒体技术的迅猛发展，人工智能生成内容（AIGC）媒体近年来受到了广泛关注。AIGC视频，尤其是基于文本的视频生成技术，已经成为电影、游戏、广告等多个领域的重要应用。然而，AIGC视频在生成过程中容易产生空间和时间的失真，如模糊的对象和背景、动作不连贯等，此外，AIGC视频与原始文本之间的不一致也可能影响其应用效果。为了评估AIGC视频的感知质量，研究人员创建了大规模生成视频质量评估（LGVQ）数据集，该数据集包含由6种视频生成模型生成的2,808个AIGC视频，这些视频基于468个精心挑选的文本提示生成。LGVQ数据集从空间质量、时间质量和文本到视频的对齐三个维度评估了AIGC视频的感知质量，这对于当前的视频生成技术具有重要意义。该数据集和提出的统一生成视频质量评估（UGVQ）模型将公开发布，以促进AIGC视频质量评估指标的发展。

当前挑战

AIGC视频的质量评估面临着一些挑战。首先，AIGC视频表现出高度复杂的失真，如不自然的动作、不合逻辑的对象等，这使得质量评估变得困难。其次，现有的质量评估指标在LGVQ数据集上的表现不佳，无法有效地评估AIGC视频的感知质量。此外，如何有效地评估AIGC视频的感知质量对于衡量视频生成技术的进步、从T2V模型生成的候选视频中筛选出最佳的AIGC视频以及优化视频生成技术至关重要。最后，LGVQ数据集的构建过程中，如何确保生成的视频内容尽可能覆盖广泛的现实场景，以及如何选择合适的T2V模型和文本提示，也是需要考虑的挑战。

常用场景

经典使用场景

该数据集主要用于评估由人工智能生成的视频内容的感知质量，特别是针对那些使用文本描述自动创建视频的内容。在评估过程中，LGVQ数据集从空间质量、时间质量和文本到视频的对应关系三个方面对视频进行评估。此外，该数据集还可以用于比较和评估现有的视频质量评估指标，并揭示当前指标在AIGC视频上的局限性。

解决学术问题

LGVQ数据集解决了如何有效地评估由人工智能生成的视频内容的感知质量的问题。在以往的视频生成研究中，只有少数指标被用于评估视频生成方法的有效性，如IS、FID、FVD、KVD、CLIP和CLIPScore等。然而，这些指标往往不能完全捕捉到视频的复杂性和多样性，特别是对于由人工智能生成的视频。LGVQ数据集的建立，为视频质量评估提供了一个新的基准，并促进了质量评估指标的发展。

实际应用

LGVQ数据集的实际应用场景包括但不限于：1）用于电影、游戏、广告等行业的人工智能生成内容的感知质量评估；2）用于选择最佳的人工智能生成视频；3）用于优化视频生成技术。此外，LGVQ数据集还可以用于开发新的视频质量评估模型，以更好地评估由人工智能生成的视频内容的感知质量。

数据集最近研究