Text-to-Video Quality Assessment DataBase (T2VQA-DB)

Name: Text-to-Video Quality Assessment DataBase (T2VQA-DB)
Creator: 上海交通大学
Published: 2024-05-18 14:34:43
License: 暂无描述

arXiv2024-05-18 更新2024-06-21 收录

下载链接：

https://github.com/QMME/T2VQA

下载链接

链接失效反馈

官方服务：

资源简介：

T2VQA-DB是由上海交通大学创建的大规模数据集，包含10000个由9种不同文本到视频（T2V）模型生成的视频，每个视频都配有主观评分。数据集通过27名受试者的主观实验收集了每个视频的平均意见分数（MOS），旨在解决现有视频质量评估模型无法准确量化文本生成视频质量的问题。T2VQA-DB不仅用于训练和测试后续模型，还支持提出了一种基于Transformer的新模型T2VQA，该模型从文本-视频对齐和视频保真度两个角度提取特征，并利用大型语言模型进行质量预测，有效提升了文本生成视频质量评估的准确性。

T2VQA-DB is a large-scale dataset developed by Shanghai Jiao Tong University. It includes 10,000 videos generated by 9 different text-to-video (T2V) models, with each video accompanied by subjective ratings. The dataset collects the Mean Opinion Scores (MOS) for each video through subjective experiments involving 27 participants, aiming to address the limitation that existing video quality assessment models fail to accurately quantify the quality of text-generated videos. Besides being utilized for training and testing subsequent models, T2VQA-DB also supports the proposal of a novel Transformer-based model named T2VQA. This model extracts features from two perspectives: text-video alignment and video fidelity, and leverages large language models to conduct quality prediction, effectively improving the accuracy of text-generated video quality assessment.

提供机构：

上海交通大学

创建时间：

2024-03-19

搜集汇总

数据集介绍

构建方式

T2VQA-DB数据集通过整合9种不同的文本到视频生成模型，生成了10,000个视频，每个视频对应一个文本提示。这些提示涵盖了广泛的类别，包括自然、人类、动物、抽象等，确保了数据集的多样性。为了评估视频质量，研究团队邀请了27名参与者进行主观评分，生成每个视频的平均意见分数（MOS）。通过这种方式，T2VQA-DB不仅提供了大规模的文本到视频生成数据，还通过主观实验确保了数据集的质量评估具有较高的可靠性。

使用方法

T2VQA-DB数据集可用于训练和测试文本到视频质量评估模型。研究人员可以使用该数据集来训练新的模型，或验证现有模型的性能。通过分析视频与文本的对齐度以及视频的保真度，模型可以预测视频的质量评分。此外，数据集的主观评分部分可以用于模型的校准和验证，确保模型预测结果与人类主观感知的一致性。T2VQA-DB的开放性使得研究人员能够基于该数据集开发和改进文本到视频生成和评估技术。

背景与挑战

背景概述

随着生成模型的快速发展，人工智能生成内容（AIGC）在日常生活中呈指数级增长，其中文本到视频（T2V）生成技术备受关注。尽管已有多种T2V模型能够生成高质量的视频，但目前仍缺乏一种有效的方法来量化评估这些生成视频的质量。为解决这一问题，上海交通大学的研究团队于2024年创建了迄今为止最大规模的文本到视频质量评估数据库（T2VQA-DB）。该数据集包含10,000个由9种不同T2V模型生成的视频，并附有每个视频的平均主观评分（MOS）。基于此数据集，研究团队提出了一种基于Transformer的新模型T2VQA，用于主观对齐的文本到视频质量评估。该模型从文本与视频对齐和视频保真度两个角度提取特征，并通过大型语言模型进行预测，实验结果表明T2VQA在评估生成视频质量方面表现优异。

当前挑战

T2VQA-DB的构建面临两大挑战：一是现有T2V数据集规模不足，难以全面反映当前T2V生成算法的多样性；二是缺乏足够的人类注释，导致现有评估方法无法准确反映用户的主观偏好。此外，传统的视频质量评估模型（VQA）无法有效处理T2V生成视频中的独特失真，如抖动效应和不合理的物体。现有的T2V评估指标（如IS、FVD和CLIPSim）也存在局限性，无法准确捕捉视频的时序信息和感知质量。T2VQA模型的提出旨在解决这些挑战，通过多模态特征融合和大型语言模型的回归，提供更全面的主观对齐预测。

常用场景

经典使用场景

T2VQA-DB数据集的经典应用场景主要集中在文本生成视频（Text-to-Video, T2V）的质量评估领域。该数据集通过收集10,000个由9种不同T2V模型生成的视频，并结合每个视频的平均主观评分（MOS），为研究人员提供了一个大规模的基准数据集。T2VQA-DB的核心应用在于训练和测试新的质量评估模型，特别是那些能够从文本与视频的对齐度（text-video alignment）和视频保真度（video fidelity）两个维度进行评估的模型。

解决学术问题

T2VQA-DB数据集解决了当前文本生成视频质量评估领域中的关键学术问题。首先，它填补了现有T2V数据集规模不足的空白，提供了迄今为止最大规模的T2V视频数据集。其次，通过引入主观评分（MOS），该数据集能够更准确地反映人类对生成视频质量的感知，解决了传统视频质量评估模型（如IS、FVD等）无法有效评估T2V生成视频质量的问题。T2VQA-DB的提出为开发更精确的T2V质量评估模型提供了坚实的基础，推动了该领域的研究进展。

实际应用

T2VQA-DB数据集在实际应用中具有广泛的潜力。首先，它可以用于训练和验证新的T2V生成模型，帮助开发者优化模型以生成更高质量的视频。其次，该数据集可以应用于视频生成平台的质量控制，确保用户生成的视频内容符合预期质量标准。此外，T2VQA-DB还可以用于多媒体内容推荐系统，通过评估生成视频的质量来提升用户体验。总之，T2VQA-DB为文本生成视频领域的实际应用提供了重要的技术支持。

数据集最近研究