MG-VAU v0.1

github2026-04-05 更新2026-04-06 收录

下载链接：

https://github.com/Reforged-Labs/mg-vau

下载链接

链接失效反馈

官方服务：

资源简介：

MG-VAU是一个用于评估AI系统对移动游戏视频广告理解能力的基准数据集。它包括13个来自8个不同移动游戏的视频广告、13个评估任务和65个评估标准，旨在测试AI系统在描述广告内容、提取创意策略等方面的能力。

MG-VAU is a benchmark dataset developed to evaluate the ability of AI systems to understand mobile game video advertisements. It includes 13 video advertisements from 8 distinct mobile games, 13 evaluation tasks and 65 evaluation criteria, which are designed to test the capabilities of AI systems in aspects such as describing advertisement content and extracting creative strategies.

创建时间：

2026-04-05

原始信息汇总

MG-VAU v0.1 数据集概述

数据集基本信息

数据集名称：MG-VAU v0.1 (Mobile Gaming Video Ads Understanding Benchmark)
核心目的：评估AI系统对移动游戏视频广告的理解能力，涵盖从广告内容描述到提取创意策略见解等任务，旨在满足实际生产创意工作流的需求。
发布者：Reforged
发布日期：2026年4月
许可证：CC BY 4.0

数据集构成

1. 视频广告素材

数量：13个视频广告。
来源：来自8款不同的移动游戏。
游戏列表：Gardenscapes, Happy Color, Kingshot, Match Factory, Monopoly GO!, Rise of Kingdoms, Royal Match, Toon Blast, Whiteout Survival, Tennis Clash。
获取方式：视频文件通过Google Drive提供（下载地址：https://drive.google.com/drive/folders/1qJAJDj0qliIilzjl77uCWR7rKD2PVJnH?usp=sharing）。

2. 评估任务与标准

评估任务：共13个评估任务，分为10种问题类型。
能力范畴：任务组织在五个预先定义的能力类别下：
1. 视频描述 (Video Description)
2. 多广告分析 (Multi-Ad Analysis)
3. 比较分析 (Comparative Analysis)
4. 策略理解 (Strategic Understanding)
5. 文化与动机分析 (Cultural & Motivational)
评估标准：共65个二元（通过/失败）评估标准，每个任务对应5个标准。标准类型包括准确性、完整性、证据基础、策略深度和比较推理。

3. 标注与系统输出

结构化标注：包含Boa生成和Gemini生成的两套标注文件（boa-labels.json, gemini-labels.json），涵盖10个部分（如hook、audio、content、visuals等）。
模型输出：包含5个AI系统在所有13个任务上的完整文本回答。
人工评估分数：包含2名独立评估者完成评分并达成共识的最终结果。

4. 基准测试报告

内容：包含完整结果的HTML报告，附有图表和详细分析（benchmark_report.html）。

评估的系统

共评估了5个AI系统：

Boa：Reforged专为广告创意构建的视频理解系统。
Gemini 3.1 Pro (multimodal)：直接处理原始视频文件的多模态模型。
Gemini 3.1 Pro (label-based)：基于Gemini生成的结构化标注进行推理。
GPT-5.4 (label-based)：基于Gemini生成的结构化标注进行推理。
Claude Opus 4.6 (label-based)：基于Gemini生成的结构化标注进行推理。

主要结果

总体得分：
- Boa: 98.5% (64/65 标准通过)
- Claude Opus 4.6: 76.9% (50/65)
- Gemini 3.1 Pro: 72.3% (47/65)
- GPT-5.4: 72.3% (47/65)
- Gemini 3.1 Pro (multimodal): 46.2% (30/65)
按类别性能：Boa在“视频描述”、“比较分析”、“策略理解”、“文化与动机分析”四个类别中达到100%通过率，在“多广告分析”类别中为93%。

研究方法论

问题与标准设计：由具有移动游戏广告分析生产经验的创意策略师团队设计。
评估过程：由2名独立评估者进行盲评，并通过讨论解决分歧以达成共识。
模型配置：每个系统对每个任务进行单次运行，使用默认温度设置，所有系统应用相同的问题和评估标准。

仓库结构

主要目录和文件包括：

benchmark_report.html：完整的交互式HTML报告。
results/Benchmark Results.xlsx：最终人工评估分数。
evaluation/Benchmark evaluation sheet.xlsx：标准定义和评分模板。
labels/：包含Boa和Gemini生成的结构化标注文件。
questions/：包含13个问题文件夹，每个文件夹内有问题描述和5个系统的回答文本文件。
scripts/：包含用于复现竞争对手基准测试的Python脚本。

使用与引用

引用格式：

MG-VAU v0.1: Mobile Gaming Video Ads Understanding Benchmark Reforged, April 2026 https://github.com/reforged/mg-vau
视频版权：视频广告归各自游戏发行商所有，仅用于研究和评估目的。

搜集汇总

数据集介绍

构建方式

在移动游戏广告创意分析领域，数据集的构建需紧密贴合实际生产流程。MG-VAU v0.1 的构建由具备丰富行业经验的创意策略师团队主导，他们预先定义了视频描述、多广告分析、对比分析、策略理解以及文化与动机分析五大能力类别。基于这些类别，团队精心设计了13项评估任务，涵盖10种问题类型，并为每项任务制定了5项二元评估标准，共计65项具体标准。这些标准旨在模拟创意策略师日常工作中的核心技能，如准确性、完整性、证据支撑、策略深度和对比推理。数据集的视频素材选自8款热门移动游戏的13个真实广告，确保了内容的多样性和现实代表性。

使用方法

研究者或开发者可通过下载提供的视频文件与配套代码库，便捷地复现或扩展本基准测试。使用前需配置Python环境并获取相应的API密钥。数据集的核心使用路径包括运行脚本以复现基于Gemini、GPT-5.4和Claude Opus等模型的对比基准测试，用户可指定特定问题或模型进行针对性评估。数据集中的结构化标签文件可直接用于训练或微调视频理解模型，而详尽的人工评估结果与交互式HTML报告则为分析模型在创意策略理解任务上的优劣提供了直观依据。通过遵循提供的代码与数据规范，用户能够系统评估自身系统在移动游戏广告深度理解方面的能力。

背景与挑战

背景概述

在移动游戏营销领域，视频广告的创意策略分析是优化用户获取与提升广告效果的核心环节。MG-VAU v0.1 数据集由 Reforged 团队于2026年4月创建，旨在构建一个评估人工智能系统理解移动游戏视频广告能力的基准。该数据集聚焦于模拟专业创意策略师的日常工作流程，涵盖视频描述、多广告分析、比较分析、战略理解及文化动机识别等五大能力范畴。通过引入13个真实广告视频、13项评估任务及65项二元评判标准，MG-VAU 不仅推动了多模态人工智能在创意内容解析方向的发展，也为自动化广告策略生成提供了重要的实证基础。

当前挑战

该数据集致力于解决移动游戏视频广告深度理解的复杂问题，其核心挑战在于要求人工智能系统超越表层视觉描述，实现具有战略洞察力的高层次分析。具体而言，系统需准确识别广告中的钩子策略、情感主题、文化参照及玩家动机等抽象概念，并在多视频比较中完成推理。在构建过程中，挑战主要源于专业评估标准的制定，即如何将创意策略师的主观经验转化为可量化的二元评判准则，并确保不同评估者间评分的一致性。此外，处理视频多模态信息的融合与对齐，以及在不同游戏类型和广告风格间保持分析的泛化能力，亦是数据集构建与模型评估中的关键难点。

常用场景

经典使用场景

在移动游戏广告创意分析领域，MG-VAU v0.1数据集为评估人工智能系统对视频广告的理解能力提供了标准化基准。其经典使用场景集中于模拟专业创意策略师的日常工作流程，通过13项涵盖视频描述、多广告分析、比较分析、战略理解及文化动机识别的任务，系统化测试模型在提取广告钩子、情感策略、文化参照及玩家动机等关键元素上的表现。该数据集通过65项二元评估标准，确保了评测过程与真实生产决策需求的高度对齐，为移动游戏广告的自动化创意分析奠定了实证基础。

解决学术问题

MG-VAU v0.1数据集针对多模态人工智能在复杂视频理解中的核心挑战，系统性地解决了若干关键学术问题。它通过结构化标注与多维任务设计，推动了模型在长视频时序推理、跨广告对比分析、深层战略意图解析等方面的研究进展。该基准的引入，使得学术界能够量化评估模型在准确性、完整性、证据 grounding、战略深度及比较推理等维度的性能，弥补了以往研究在广告创意领域缺乏标准化评测工具的空白，为视频理解模型向实用化、专业化方向发展提供了重要参照。

实际应用

在实际应用层面，MG-VAU v0.1数据集直接服务于移动游戏行业的广告创意优化与生产决策。创意策略师可借助基于该数据集训练的AI系统，自动化分析海量视频广告，快速识别高效钩子、对比广告变体效果、提炼情感策略共性，并捕捉文化参照元素，从而显著提升广告创意迭代的效率与科学性。此外，该数据集也为广告平台、游戏开发商及营销机构提供了可靠的性能基准，助力其筛选或开发具备产业级理解能力的视频分析工具，最终驱动广告投放效果与用户获取成本的整体优化。

数据集最近研究