AIGVE-Bench

Name: AIGVE-Bench
Creator: 加州大学戴维斯分校
Published: 2025-03-18 17:36:33
License: 暂无描述

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

https://www.aigve.org/

下载链接

链接失效反馈

官方服务：

资源简介：

AIGVE-Bench是一个大型多方面基准数据集，由加州大学戴维斯分校的IFM实验室创建。该数据集包含500个文本提示，由五种最先进的视频生成模型根据这些提示生成的2430个视频，以及21,870个人工评估分数，这些分数覆盖了九个评估方面。该数据集旨在系统性地评估不同的视频生成模型在九个关键质量维度上的表现。

AIGVE-Bench is a large-scale multi-faceted benchmark dataset created by the IFM Lab at the University of California, Davis. This dataset contains 500 textual prompts, 2,430 videos generated by five state-of-the-art video generation models based on these prompts, and 21,870 manual evaluation scores covering nine evaluation aspects. This dataset aims to systematically evaluate the performance of different video generation models across nine key quality dimensions.

提供机构：

加州大学戴维斯分校

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

AIGVE-Bench数据集的构建过程分为四个主要阶段：指令生成、指令验证、视频生成和视频评估。首先，通过精心设计的提示词，利用大型语言模型生成多样化的视频生成指令，涵盖全球视角和近景镜头两类场景。接着，通过人工验证确保指令的准确性和唯一性。随后，使用五种先进的视频生成模型（如CogVideoX、Sora等）生成视频，确保视频时长统一为5秒，并尽可能采用最高配置以反映当前技术水平。最后，通过专家评估团队对生成的视频进行多维度评分，涵盖技术质量、动态性、一致性等九个关键方面，确保评估结果的可靠性和全面性。

特点

AIGVE-Bench数据集具有多方面的显著特点。首先，它包含了500条精心设计的文本提示词，生成了2,430个视频，并收集了21,870个人工评分，覆盖了九个关键评估维度，确保了评估的全面性。其次，数据集通过全球视角和近景镜头的分类，涵盖了自然景观、城市环境、人物互动等多种场景，提供了丰富的多样性。此外，数据集还通过严格的过滤机制，剔除了不现实的视频，确保了评估数据的质量。最后，AIGVE-Bench与AIGVE-Tool工具紧密结合，提供了标准化的评估流程，便于研究人员进行模型性能的对比和分析。

使用方法

AIGVE-Bench数据集的使用方法主要依托于AIGVE-Tool工具。研究人员可以通过配置驱动的方式，灵活选择数据集、评估指标和模型参数，无需修改核心代码即可完成评估流程。首先，用户需通过Python配置文件定义评估设置，包括数据集路径、评估指标和模型参数。接着，AIGVE-Tool会自动加载数据集，提取视频特征，并执行评估指标的计算。最后，工具会生成结构化的评估报告，便于研究人员进行模型性能的对比和分析。AIGVE-Tool的模块化设计使得新数据集和新指标的集成变得简单，极大地降低了评估工作的复杂性，提升了研究效率。

背景与挑战

背景概述

AIGVE-Bench数据集由加州大学戴维斯分校的IFM实验室于2025年推出，旨在为AI生成视频（AIGV）领域提供标准化的评估基准。随着深度学习生成模型的快速发展，AI生成视频的质量和复杂性显著提升，传统的视频质量评估方法已无法全面衡量生成视频的多维度表现。AIGVE-Bench通过整合五种先进的视频生成模型，基于500条手工设计的指令和提示，生成了2,430个视频，并提供了21,870个人工评估分数，覆盖了九个关键质量维度。该数据集的推出为AI生成视频的评估提供了系统化的工具和基准，推动了该领域的研究进展。

当前挑战

AIGVE-Bench面临的挑战主要体现在两个方面：首先，AI生成视频的评估需要涵盖多个维度，如文本-视频对齐、运动一致性、时间连贯性和语义保真度等，现有评估方法往往局限于单一维度，难以全面反映生成视频的质量。其次，数据集的构建过程中，如何确保生成视频的多样性和真实性是一个重要挑战。尽管AIGVE-Bench通过手工设计的指令和多种生成模型提升了数据集的多样性，但生成视频的物理合理性和复杂场景的细节表现仍存在不足，尤其是在城市场景和复杂交互方面，生成模型的表现显著弱于自然场景。

常用场景

经典使用场景

AIGVE-Bench数据集广泛应用于AI生成视频的评估任务中，尤其是在多维度视频质量评估领域。该数据集通过提供500个文本提示和2430个由五种先进视频生成模型生成的视频，结合21870个人工评分，为研究者提供了一个标准化的基准。其经典使用场景包括对视频生成模型在技术质量、动态性、一致性、物理合理性等多个关键维度上的系统性评估，帮助研究者全面了解模型的性能表现。

衍生相关工作

AIGVE-Bench的发布推动了多个相关领域的研究进展。基于该数据集，研究者开发了多种新的评估指标和方法，例如结合视觉-语言模型的语义对齐评估和基于物理合理性的视频质量评估。此外，AIGVE-Bench还激发了多模态生成模型的研究，尤其是在视频生成与文本提示的精确匹配方面。该数据集还促进了视频生成模型的优化，特别是在复杂场景生成和动态交互表现方面，推动了下一代AI生成视频技术的发展。

数据集最近研究