AVGen-Bench

Name: AVGen-Bench
Creator: Microsoft
Published: 2026-03-26 21:37:38
License: 暂无描述

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/microsoft/AVGen-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AVGen-Bench Generated Videos 数据集是一个用于评估文本到音视频（T2AV）系统的基准数据集，而非训练数据集。数据集包含由不同模型生成的视频，这些视频基于共享的提示集生成，并按模型目录和视频类别进行组织。数据集包含235个提示，覆盖11个类别，如广告、动物、烹饪等。每个生成的项目通常是一个.mp4文件，包含模型生成的视频和合成的音频。数据集还包含一个元数据文件（metadata.parquet），用于索引每个视频的相关信息，如文件名、模型、类别、提示内容等。数据集旨在用于T2AV系统的基准测试、错误分析和定性演示，但不适用于训练通用视频生成模型或作为真实事件的证据。数据集已知的局限性包括输出是合成的，可能包含生成模型的偏见和故障模式，且某些类别的提示可能因模型的安全策略而被拒绝生成。

提供机构：

Microsoft

创建时间：

2026-03-16

原始信息汇总

AVGen-Bench 数据集概述

数据集基本信息

数据集名称: AVGen-Bench Generated Videos
发布者: microsoft
许可证: mit
存储库地址: https://huggingface.co/datasets/microsoft/AVGen-Bench
代码仓库: https://github.com/microsoft/AVGen-Bench

数据集目的与性质

本数据集旨在用于文本到音视频（T2AV）系统的基准测试和定性/定量评估。
它不是一个训练数据集。
每个数据项都是一个模型根据 prompts/*.json 中定义的提示词生成的视频。

数据集内容与结构

组织方式

数据集按以下层级组织：

模型目录
视频类别
生成的 .mp4 文件

典型顶层结构

AVGen-Bench/ ├── Kling_2.6/ ├── LTX-2/ ├── LTX-2.3/ ├── MOVA_360p_Emu3.5/ ├── MOVA_360p_NanoBanana_2/ ├── Ovi_11/ ├── Seedance_1.5_pro/ ├── Sora_2/ ├── Veo_3.1_fast/ ├── Veo_3.1_quality/ ├── Wan_2.2_HunyuanVideo-Foley/ ├── Wan_2.6/ ├── metadata.parquet ├── prompts/ └── reference_image/ # 可选，取决于生成流程

模型目录内部结构

在每个模型目录下，视频按类别分组，例如：

Veo_3.1_fast/ ├── ads/ ├── animals/ ├── asmr/ ├── chemical_reaction/ ├── cooking/ ├── gameplays/ ├── movie_trailer/ ├── musical_instrument_tutorial/ ├── news/ ├── physical_experiment/ └── sports/

提示词覆盖范围

提示词定义存储在 prompts/*.json 中。
当前提示词集包含 235个提示词，涵盖 11个类别：

类别	提示词数量
`ads`	20
`animals`	20
`asmr`	20
`chemical_reaction`	20
`cooking`	20
`gameplays`	20
`movie_trailer`	20
`musical_instrument_tutorial`	35
`news`	20
`physical_experiment`	20
`sports`	20

提示词JSON条目内容

通常包含：

content: 用于命名或索引的简短内容描述符。
prompt: 完整的生成提示词。

数据实例格式

每个生成的项通常是一个单独的 .mp4 文件。
包含模型生成的视频，以及当模型/流程支持时，合成的音频。
存储在 <model>/<category>/ 路径下。
文件名通常源自提示词的 content 字段经过清理后的内容。

标准输出路径模式

<model>/<category>/<safe_filename(content)>.mp4

元数据索引

为支持数据集查看器索引，metadata.parquet 文件为每个导出的视频存储一行数据，包含以下字段：

file_name: .mp4 文件的相对路径。
model: 模型目录名称。
category: 基准测试类别。
content: 提示词短名称。
prompt: 完整的生成提示词。
prompt_id: 在 prompts/<category>.json 中的索引。

数据生成方式

视频是通过在不同的T2AV系统上运行共享的基准测试提示词集生成的。
所有系统都针对相同的类别结构进行评估。
输出是模型生成的，而非人工录制的。
不同模型可能暴露不同的生成设置、分辨率或条件机制。
根据底层模型的不同，某些流程可能额外使用首帧或参考图像输入。

预期用途

对T2AV生成系统进行基准测试。
运行AVGen-Bench评估脚本。
比较不同模型的失败模式。
定性演示素材整理。
按类别或提示词类型进行错误分析。

非预期用途

不应用于训练通用视频生成模型。
不应用于将模型输出视为真实世界事件的证据。
不应用于在没有额外测试的情况下对模型进行安全认证。
不应用于声称基准测试性能完全代表下游部署质量。

已知局限性

输出是合成的，继承了生成模型的偏见和失败模式。
某些类别强调基准压力测试，而非自然真实世界的频率。
如果生成作业失败、超时或被过滤，不同模型间的文件可用性可能不同。
不同的模型提供商执行不同的安全和审核策略；某些提示词可能在提供商端审核中被拒绝，这可能导致即使提示词存在于基准测试中，特定模型也缺少相应视频。

风险与负责任使用

由于这些是生成的视频：

视觉真实感并不意味着事实正确性。
音频可能包含伪影、可懂度失败或误导性的同步问题。
生成的内容可能反映刻板印象、不合理的因果结构或继承自上游模型的不安全输出。
任何重新分发结果的人都应明确将其标记为合成模型输出。

搜集汇总

数据集介绍

构建方式

在多媒体生成技术快速发展的背景下，AVGen-Bench数据集通过系统化的流程构建而成。其核心在于采用统一的文本提示集合，涵盖广告、动物、烹饪、体育等11个类别共计235个提示，确保评估范围的广泛性。多个前沿文本到音视频生成模型，如Sora、Veo等，基于这些提示独立生成对应的MP4格式视频文件，并按照模型与类别进行层次化存储。数据集还包含元数据文件，记录每个视频的文件路径、模型来源及完整提示信息，从而形成结构化的基准测试资源。

使用方法

该数据集主要用于文本到音视频生成系统的性能评测与分析。研究人员可借助数据集附带的元数据，便捷地访问和筛选特定模型或类别下的生成视频，进行定量指标计算或定性视觉评估。通过对比不同模型在相同提示下的输出，能够系统分析各模型在内容保真度、运动连贯性及音画同步等方面的优劣。此外，数据集支持针对特定失败模式或类别偏差的深入错误分析，为后续模型改进提供方向性依据，但需注意其合成属性，避免将结果直接等同于现实世界证据。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，文本到音视频生成系统已成为多模态内容创作的前沿领域。AVGen-Bench数据集由微软研究院于2024年创建，旨在为T2AV系统提供一个标准化的评估基准。该数据集汇集了来自Kling、Sora、Veo等十余种先进生成模型的输出结果，覆盖广告、动物、烹饪、体育等11个类别，共计235个提示词。其核心研究问题在于如何系统性地衡量不同模型在生成高质量、多模态内容时的一致性、真实性与创造性，从而推动生成模型在音频与视频同步、语义理解及场景构建等方面的技术进步，对促进多模态人工智能的标准化评估具有重要影响力。

当前挑战

AVGen-Bench数据集所针对的文本到音视频生成领域，面临多模态对齐的固有挑战，包括音频与视觉内容的时序同步、语义一致性维护以及跨模态信息融合的复杂性。在数据集构建过程中，挑战主要体现在技术层面与操作层面：不同生成模型采用各异的输出设置、分辨率及条件机制，导致跨模型比较时需处理格式与质量的不均质性；部分模型因安全审核策略而拒绝特定提示，造成数据覆盖不全；同时，合成内容固有的偏见与失真模式，以及基准类别侧重于压力测试而非自然分布，均增加了评估的客观性与泛化难度。

常用场景

经典使用场景

在多媒体生成领域，AVGen-Bench数据集为文本到音视频生成系统的性能评估提供了标准化基准。该数据集通过涵盖广告、动物、烹饪、体育等11个类别共235个提示词，系统性地收集了多种前沿模型生成的音视频样本。研究人员利用这些样本进行横向对比，能够深入分析不同模型在视觉保真度、音频同步性及内容一致性等方面的表现差异，从而推动生成技术的迭代优化。

解决学术问题

该数据集有效解决了文本到音视频生成领域缺乏统一评估基准的学术难题。通过提供结构化的提示词集合与多模型生成结果，它支持定量指标计算与定性错误分析，帮助研究者识别模型在特定场景下的失败模式，如物理规律违背或语义歧义。这种标准化评估框架加速了生成模型的可靠性研究，并为跨模型性能比较提供了实证基础，显著提升了领域研究的可复现性与严谨性。

实际应用

在实际应用层面，AVGen-Bench数据集为多媒体内容创作工具的开发提供了关键参考。广告制作、教育视频生成以及娱乐产业中的预告片创作等场景，均可借助该数据集的评估结果筛选合适的生成模型。通过对不同类别生成质量的洞察，开发者能够优化提示工程策略，提升生成内容的实用性与吸引力，进而推动自动化音视频生产技术在商业场景中的安全落地。

数据集最近研究