AIGVE-Bench

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/xiaoliux/AIGVE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AIGVE-Bench是一个多方面的AI生成视频评估基准，包含大规模、人工注释的视频内容，用于从技术质量、动态性、一致性、物理性、元素存在性、元素质量、动作/交互存在性、动作/交互质量以及整体质量等九个关键维度对AI生成的视频内容进行评估。

创建时间：

2025-05-10

原始信息汇总

AIGVE-Bench 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 视频分类
语言: 英语
标签: 视频

数据集简介

AIGVE-Bench 是一个大规模、人工标注的基准数据集，用于评估AI生成的视频内容。该数据集包含：

500 个多样化提示
2,430 个由 5个先进模型（Sora, Hunyuan, Pyramid, CogVideoX, Genmo）生成的视频
21,870 个细粒度人工评估分数，涵盖 9个不同维度

评估指标

指标	描述
Technical Quality	评估视频的技术质量，包括分辨率、颜色自然度和噪声/伪影
Dynamic	测量视频中的像素变化程度，关注对象或相机运动及环境变化
Consistency	评估视频中对象属性的持续性，避免闪烁或意外变化
Physics	确定场景是否遵循物理定律，确保对象行为和交互符合现实
Element Presence	检查视频中是否包含所有指令中提到的对象
Element Quality	评估视频中对象的真实感和保真度
Action/Interaction Presence	评估视频中是否准确呈现所有指令中描述的动作和交互
Action/Interaction Quality	测量动作和交互的自然度和流畅度
Overall	综合评估视频的整体质量

数据集结构

每个条目包含：

Prompt: 生成视频的手工制作指令
Model: 使用的生成模型
video_path: 视频文件名（如 sora_0.mp4）
9个数值分数，对应上述评估指标

视频下载

所有视频文件命名格式为 {model_id}_{id}.mp4（如 sora_0.mp4），可通过以下链接下载完整视频集： 🔗 https://huggingface.co/datasets/xiaoliux/AIGVE-Bench/resolve/main/AIGVE-Bench%20Videos.zip

引用

bibtex @article{xiang2025aigve, title={AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark}, author={Xiang, Xinhao and Liu, Xiao and Li, Zizhong and Liu, Zhuosheng and Zhang, Jiawei}, journal={arXiv preprint arXiv:2503.14064}, year={2025} }

搜集汇总

数据集介绍

构建方式

在文本到视频生成技术迅猛发展的背景下，AIGVE-Bench数据集应运而生，旨在为AI生成视频的评估提供全面且细致的基准。该数据集通过精心设计的500个多样化提示词，结合五种前沿视频生成模型（包括Sora、Hunyuan、Pyramid、CogVideoX和Genmo），生成了2,430个视频样本。每个视频均经过人工精细标注，涵盖了技术质量、动态性、一致性等九个关键维度的21,870项评分，确保了数据集的全面性和可靠性。

使用方法

使用AIGVE-Bench数据集时，研究者可通过下载包含视频文件和CSV标注数据的完整包开始。CSV文件中的每一行对应一个视频样本，包含生成提示词、模型名称、视频路径及九个维度的评分。视频文件按统一命名规则存储，便于快速匹配。数据集支持多种评估场景，既可直接用于人工评分分析，也可结合自动评估工具进行量化研究。详细的使用指南和工具包可通过项目网站获取，确保研究者能够高效地利用这一资源。

背景与挑战

背景概述

随着文本到视频生成技术的迅猛发展，对生成内容进行系统化评估的需求日益凸显。2025年，由Xinhao Xiang、Xiao Liu等研究人员组成的团队推出了AIGVE-Bench基准数据集，旨在为AI生成视频提供多维度的评估框架。该数据集包含来自Sora、Hunyuan等5个前沿模型的2430个视频样本，覆盖500个多样化提示词，并附有21870个精细人工标注评分。作为AIGVE-Tool工具包的核心组成部分，该数据集通过技术质量、动态性、物理合理性等9个评估维度，为视频生成模型的性能评估建立了标准化基础设施，推动了生成式视频研究向可量化、可复现的方向发展。

当前挑战

在构建AIGVE-Bench数据集过程中，研究团队面临双重挑战：领域层面需解决生成视频多维评价指标体系的构建难题，包括物理合理性判断的动态建模、跨模型一致性评估等复杂问题；数据层面则需克服大规模人工标注的质量控制挑战，确保九类主观评分在2430个视频样本中保持标注标准统一。技术实现上，视频素材涉及不同生成模型的输出格式兼容性问题，且需平衡评估维度的全面性与标注成本的关系。这些挑战的突破为后续视频生成评估研究提供了重要的方法论参考。

常用场景

经典使用场景

在人工智能生成视频领域，AIGVE-Bench数据集被广泛用于评估不同视频生成模型的性能。该数据集通过500个多样化提示和2430个由五种先进模型生成的视频，提供了多维度评估框架。研究者利用该数据集对视频的技术质量、动态性、一致性、物理合理性等九个关键指标进行系统分析，从而全面比较不同模型的生成能力。

解决学术问题

AIGVE-Bench数据集解决了AI生成视频领域缺乏标准化评估体系的难题。通过提供21,870个精细人工评分数据，该数据集为研究者建立了可靠的基准测试平台。其多维度的评估指标填补了以往研究中对视频生成质量评估片面性的空白，为模型优化提供了明确的方向指引，推动了该领域的规范化发展。

实际应用

在实际应用中，AIGVE-Bench数据集被视频生成平台用于模型选型和性能优化。开发团队通过对比不同模型在该数据集上的表现，选择最适合其应用场景的生成技术。同时，该数据集也被用于产品迭代过程中的质量监控，确保生成的视频在技术质量和内容表现上达到预期标准。

数据集最近研究