UltraLAMBDA

Hugging Face2024-07-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/behavior-in-the-wild/UltraLAMBDA

下载链接

链接失效反馈

官方服务：

资源简介：

UltraLAMBDA是一个大规模的广告数据集，来源于YouTube和Facebook Ads以及CommonCrawl平台上的品牌视频。该数据集的特征包括视频的ID和记忆性评分（低、中或高）。数据集分为训练集，包含190041个样本。

UltraLAMBDA is a large-scale advertising dataset sourced from brand videos on YouTube, Facebook Ads, and the CommonCrawl platform. Its features include video IDs and memorability scores (low, medium, or high). The dataset is split into a training set containing 190,041 samples.

创建时间：

2024-07-19

原始信息汇总

数据集概述

数据集名称

UltraLAMBDA

数据集来源

该数据集包含从YouTube、Facebook Ads以及CommonCrawl平台收集的品牌视频广告。

数据集描述

UltraLAMBDA是一个大规模的广告数据集，其记忆性评分由模型Henry分配。

数据集结构

数据集包含一个训练集，具体结构如下：

python from datasets import load_dataset ds = load_dataset("behavior-in-the-wild/UltraLAMBDA") ds

DatasetDict({ train: Dataset({ features: [id, memorability], num_rows: 1964 }) })

数据字段

id: YouTube视频的ID
memorability: 视频的记忆性标签（低、中或高）

数据集大小

下载大小: 2838262 字节
数据集大小: 4424635 字节

引用

@misc{s2024longtermadmemorabilityunderstanding, title={Long-Term Ad Memorability: Understanding and Generating Memorable Ads}, author={Harini S I au2 and Somesh Singh and Yaman K Singla and Aanisha Bhattacharyya and Veeky Baths and Changyou Chen and Rajiv Ratn Shah and Balaji Krishnamurthy}, year={2024}, eprint={2309.00378}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2309.00378}}

搜集汇总

数据集介绍

构建方式

UltraLAMBDA数据集的构建基于从YouTube、Facebook Ads等平台以及CommonCrawl中提取的品牌视频广告。通过自动化模型Henry对这些广告的记忆性进行评分，最终生成了一个包含大量广告样本的数据集。数据集的构建过程不仅涵盖了广告的收集与整理，还涉及记忆性标签的自动化标注，确保了数据的多样性与代表性。

特点

UltraLAMBDA数据集的特点在于其规模庞大且结构清晰，涵盖了190,041个广告样本，每个样本均包含唯一的YouTube视频ID及其对应的记忆性标签（低、中、高）。数据集通过自动化模型生成的记忆性评分，为广告记忆性研究提供了高质量的标注数据。此外，数据集的来源多样，涵盖了多个主流广告平台，进一步增强了其适用性与研究价值。

使用方法

使用UltraLAMBDA数据集时，可通过Hugging Face的`datasets`库直接加载数据。用户只需调用`load_dataset`函数并指定数据集名称即可获取训练集，其中包含`id`和`memorability`两个关键字段。该数据集适用于广告记忆性分析、广告生成模型训练等任务，为研究人员提供了一个高效且可靠的数据支持平台。

背景与挑战

背景概述

UltraLAMBDA数据集由Harini S I au2等研究人员于2024年创建，旨在深入理解广告的长期记忆性及其生成机制。该数据集主要来源于YouTube、Facebook Ads等平台的品牌视频以及CommonCrawl的广告数据，涵盖了大量的广告样本。通过模型Henry为每个广告分配记忆性评分，UltraLAMBDA为广告记忆性研究提供了丰富的数据支持。该数据集不仅推动了广告记忆性领域的定量研究，还为广告创意生成和优化提供了重要的数据基础。

当前挑战

UltraLAMBDA数据集在解决广告记忆性评估问题时面临多重挑战。首先，广告记忆性的主观性和多样性使得评分模型的构建极为复杂，需要综合考虑视觉、文本和情感等多维度特征。其次，数据集的构建过程中，从不同平台获取广告数据并确保其一致性和代表性是一项艰巨任务。此外，如何有效处理大规模数据并保证评分模型的准确性和泛化能力，也是该数据集面临的核心技术挑战。这些挑战不仅影响了数据集的构建效率，也对后续研究的深度和广度提出了更高的要求。

常用场景

经典使用场景

UltraLAMBDA数据集广泛应用于广告记忆性研究领域，特别是在分析品牌视频广告的记忆效果方面。研究者通过该数据集可以深入探讨不同广告内容对观众记忆的影响，进而优化广告策略。数据集中的记忆性标签（低、中、高）为研究者提供了量化广告效果的依据，使得广告记忆性研究更加科学化和系统化。

衍生相关工作

基于UltraLAMBDA数据集，研究者们开展了多项经典工作。例如，有研究利用该数据集开发了新的广告记忆性预测模型，进一步提升了广告效果评估的准确性。此外，还有研究结合该数据集探讨了广告记忆性与消费者行为之间的关系，为广告心理学和行为经济学提供了新的研究视角。

数据集最近研究