Automatic Understanding of Image and Video Advertisements

github2026-03-24 更新2026-03-26 收录

下载链接：

https://github.com/CoactiveAI/mediaperf

下载链接

链接失效反馈

官方服务：

资源简介：

视频数据：2,003个广告视频，时长从30秒到2分30秒不等，总时长为1,749分钟。注释：68个视频级标签，重点关注主题和情感。我们通过人工注释为相同的视频数据增加了额外的摘要。增强注释包括：专注于长篇编辑描述的视频级摘要，包括故事情节、意图、信息、语调和目标受众；100个视频级标签，包括类型、格式、主题、情绪和主题（注意：计划在2026年第二季度的下一个MediaPerf版本中发布）。

Video Dataset: 2,003 advertising videos, with durations ranging from 30 seconds to 2 minutes and 30 seconds, with an aggregate duration of 1,749 minutes. Annotations: 68 video-level labels focusing on topics and sentiments. We added supplementary summaries via manual annotations to this identical video dataset. Enhanced annotations include: video-level summaries centered on long-form editorial descriptions, covering storylines, intentions, core information, tones, and target audiences; 100 video-level labels including genres, formats, topics, emotions, and themes (Note: Planned to be released in the next MediaPerf version in Q2 2026).

创建时间：

2026-03-14

原始信息汇总

MediaPerf 数据集概述

数据集基本信息

数据集名称：MediaPerf 基准测试数据集
核心数据来源：基于“Automatic Understanding of Image and Video Advertisements”研究的视频数据与标注
主要用途：用于评估多模态基础模型在视频理解任务上的性能，任务基于媒体行业实际生产环境中的真实数据和需求。

数据内容

视频数据：包含 2,003 条广告视频，视频长度范围从 30 秒到 2 分 30 秒，总时长为 1,749 分钟。
原始标注：包含 68 个视频级标签，侧重于主题和情感。
增强标注：
- 视频级摘要：包含人工标注的长篇编辑性描述，涵盖故事情节、意图、信息、语气和目标受众。
- 视频级标签：包含 100 个标签，涵盖类型、格式、主题、情绪和主题（计划在 2026 年第二季度发布的下一版 MediaPerf 中提供）。

数据文件与格式

视频ID列表：位于 data/inputs/youtube_video_ids.txt。
视频文件命名规范：视频存储在 S3、GCS 或本地时应命名为 vid_<youtube_id>.mp4（例如 vid_8iXdsvgpwc8.mp4）。
摘要真值文件：视频级摘要真值位于 data/inputs/summarization_ground_truth.jsonl。

支持的任务与评估指标

任务类型：
1. 标准标签分类
2. 标签分类与优化工作负载
3. 视频摘要生成
4. 摘要质量评估（使用 LLM 作为评判员）
评估指标：
- 性能指标：
  - 视频级标签分类：精确率、召回率、F1 分数
  - 视频级摘要生成：基于量规的分数（使用 LLM-as-judge 评估）
  - 标签分类与优化工作负载：不适用
- 成本指标：API 调用成本
- 效率指标：延迟/吞吐量

基准测试框架与模型

评估框架：MediaPerf，一个用于评估多模态基础模型视频理解性能的生产就绪框架。
评估模型：涵盖 13 个视觉语言模型，包括 AWS Bedrock (Nova, Pegasus, NVIDIA)、Google Vertex AI (Gemini)、OpenAI (GPT) 以及自托管模型 (Qwen)。完整列表详见 Model Reference Guide。

注意事项

原始标签列表中的部分标签（如 funny、effective、exciting）因覆盖范围有限或应用不一致，在分析中被省略。
数据集仅包含短视频内容，长视频内容（剧集、电影、体育、新闻）尚未包含。
当前基准测试仅评估生成式视觉语言模型，尚未覆盖用于嵌入和搜索/检索工作流的编码器模型。

许可信息

源代码许可：Apache License 2.0。
人工标注的摘要和标签数据许可：Creative Commons Attribution 4.0 International License (CC-BY 4.0)。

参考文献

[1] Zaeem Hussain, Mingda Zhang, Xiaozhong Zhang, Keren Ye, Christopher Thomas, Zuha Agha, Nathan Ong, Adriana Kovashka. "Automatic Understanding of Image and Video Advertisements." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1705-1715. Link

搜集汇总

数据集介绍

构建方式

在多媒体内容理解领域，数据集的构建往往依赖于真实场景的采集与标注。本数据集源自《Automatic Understanding of Image and Video Advertisements》研究，其核心视频数据包含2,003条广告视频，时长介于30秒至2分30秒之间，总时长约1,749分钟。原始标注涵盖68个视频级标签，聚焦于主题与情感维度。为进一步丰富数据，研究团队引入了人工标注的长篇摘要，涵盖剧情、意图、信息、语调及目标受众等编辑性描述，并计划扩展至100个涵盖类型、格式、主题、情绪等多维标签。视频数据以YouTube ID形式提供，并遵循特定命名规范存储于云端或本地，确保了数据的可追溯性与一致性。

特点

该数据集在广告视频理解领域展现出鲜明的专业特性。其视频内容均来源于真实广告场景，覆盖多样化的产品与创意风格，为模型训练提供了贴近实际应用的数据分布。标注体系兼具广度与深度，不仅包含细粒度的主题与情感标签，还引入了富有语义层次的长篇摘要，支持从多标签分类到生成式摘要等多种任务评估。数据集的规模适中，兼顾了计算效率与统计代表性，且通过严格的标注质量控制，剔除了覆盖不足或应用不一致的标签，提升了标注的可靠性。这些特点使其成为评估多模态基础模型视频理解能力的理想基准。

使用方法

该数据集被集成于MediaPerf评估框架中，为多模态模型的性能评测提供核心数据支持。使用者可通过框架的配置文件驱动整个处理流程，无需修改代码即可切换不同模型（如GPT、Gemini、Qwen等）与任务类型。典型应用包括视频级多标签标注、视频摘要生成以及摘要质量评估等任务。运行前需配置相应的云服务凭证与环境变量，通过执行指定配置的YAML文件启动管道。框架内置智能缓存机制，可复用已处理的视频帧以提升效率，并自动追踪API成本、令牌用量与延迟等关键指标。数据集的视频文件需按规范命名并存储于S3、GCS或本地路径，其真实标签与摘要以JSONL格式提供，便于框架加载并进行自动化指标计算。

背景与挑战

背景概述

在多媒体内容分析领域，广告视频的自动理解一直是计算机视觉与自然语言处理交叉研究的前沿课题。'Automatic Understanding of Image and Video Advertisements'数据集由Zaeem Hussain、Mingda Zhang等研究人员于2017年创建，并在CVPR会议上正式发布。该数据集的核心研究问题在于如何利用机器学习技术自动解析广告视频中的语义信息，包括主题识别、情感分析及内容摘要生成。通过提供2003条时长在30秒至2.5分钟之间的广告视频及68个视频级标签，该数据集为多模态基础模型的性能评估奠定了重要基础，显著推动了广告内容分析、媒体产业智能化应用的发展。

当前挑战

该数据集旨在解决广告视频多模态理解的复杂问题，其核心挑战在于如何准确识别视频中交织的视觉元素、叙事结构和情感倾向。具体而言，标签体系需涵盖多样化的广告主题与风格，而原始标注中部分标签因覆盖范围有限或应用不一致而被剔除，这反映了构建高质量标注数据的固有困难。在数据集构建过程中，研究人员面临视频时长差异大、标注一致性维护以及跨模态语义对齐等挑战。此外，将此类数据集应用于实际生产环境时，还需应对多模型集成、计算成本优化以及长视频内容扩展等工程化难题。

常用场景

经典使用场景

在多媒体内容理解领域，该数据集为评估多模态基础模型的视频理解性能提供了基准。其核心应用场景在于对广告视频进行自动化标注与摘要生成，通过涵盖主题、情感、体裁等多维度标签体系，为模型在复杂语义理解任务上的表现提供了标准化测试平台。研究者可利用该数据集执行视频级标注、摘要生成及迭代优化工作负载，系统评估模型在真实媒体内容上的识别精度与语义概括能力。

实际应用

在媒体产业实践中，该数据集支撑着智能广告审核、内容推荐优化及创意效果评估等关键应用。广告平台可基于模型对视频的主题分类与情感分析，实现广告内容的自动化标签管理；营销团队则能通过生成的叙事摘要，快速把握广告创意核心要素。这些应用显著提升了广告投放的精准度与内容管理效率，为媒体行业的数字化转型提供了可靠的技术基础设施。

衍生相关工作

围绕该数据集衍生的经典研究集中于多模态表征学习与跨模态对齐技术。早期工作通过注意力机制融合视觉与文本特征，提升广告场景的语义解析能力；后续研究则探索了基于Transformer的端到端理解框架，实现了从视频帧到高层语义概念的映射。这些工作不仅推动了广告内容分析的技术演进，更为广义的视频理解任务提供了可迁移的模型架构与方法论启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集