Multimodal Oil & Gas Benchmark

Name: Multimodal Oil & Gas Benchmark
Creator: Hitachi Ltd., Stanford University, Centre for the Acceleration of Social Technology, Princeton University
Published: 2025-10-25 01:34:28
License: 暂无描述

arXiv2025-10-25 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/climate-nlp/multimodal-oil-gas-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个多模态基准数据集，专门用于评估视觉语言模型（VLMs）在石油和天然气广告和潜在漂绿检测方面的能力。数据集由专家标注的视频广告组成，包括来自Facebook和YouTube的13种框架类型，涉及20个国家的50多个公司或倡导组织。数据集设计独特，旨在评估VLMs在现实世界战略框架方面的表现，并支持跨领域、实体级别和时间分析。

This dataset is a multimodal benchmark dataset specifically tailored to evaluate the capabilities of Vision-Language Models (VLMs) in detecting oil and gas advertisements and potential greenwashing. It consists of expert-annotated video advertisements, including 13 types of framing frameworks sourced from Facebook and YouTube, and covers over 50 companies or advocacy organizations across 20 countries. Uniquely designed, this dataset aims to assess VLMs' performance on real-world strategic framing tasks, while supporting cross-domain, entity-level and temporal analysis.

提供机构：

Hitachi Ltd., Stanford University, Centre for the Acceleration of Social Technology, Princeton University

创建时间：

2025-10-25

原始信息汇总

多模态石油天然气广告基准数据集概述

数据集基本信息

数据集名称：多模态石油天然气广告基准数据集
创建者：论文作者
许可证：CC BY-NC 4.0（仅适用于作者贡献部分，不包含原始视频内容权利）
语言：主要为英语，少量视频包含日语等非英语语言
任务类别：视频分类
标签：多模态、漂绿、气候、环境、视频、广告、大语言模型
数据规模：小于1000个样本

数据集用途

直接用途

研究目的
用于基准测试视觉语言模型预测石油天然气实体的阻碍性和印象派框架

超出范围用途

禁止用于商业目的
仅限研究用途

数据集结构

数据格式

JSON-Line格式，每行一个视频样本
基本数据结构包含以下字段：
- video_id：视频唯一标识符
- video_url：视频URL（已匿名化）
- labels：标注标签
- video_length_seconds：视频时长（秒）
- entity_name：视频发布者实体名称（已匿名化）

数据集创建

数据来源

视频URL来源于YouTube和Facebook广告
标签基于先前文献（Holder等人和Rowlands等人）

标注过程

YouTube数据集：手动标注
Facebook数据集：远程标注
标注者：YouTube数据集由作者参与标注，Facebook数据集标注来源于先前文献

数据收集

源视频来自社交媒体上的公共广告视频
详细信息请参阅论文

引用信息

text @inproceedings{morio-etal-2025-multimodal, author = {Morio, Gaku and Rowlands, Harri and Stammbach, Dominik and Manning, Christopher D and Henderson, Peter}, booktitle = {Advances in Neural Information Processing Systems}, title = {A Multimodal Benchmark for Framing of Oil & Gas Advertising and Potential Greenwashing Detection}, year = {2025} }

联系方式

请联系论文作者，主要联系邮箱请参阅论文

搜集汇总

数据集介绍

构建方式

该数据集通过整合Facebook和YouTube两大平台的视频广告资源构建而成，涵盖超过50家能源企业或倡导团体在20个国家的传播内容。Facebook子集基于既有研究对气候阻碍框架的文本标注，通过视频与文本标签的对齐形成多模态样本；YouTube子集则通过系统检索企业官方频道，采用专家标注团队经过多轮讨论确定的六类印象式框架标签。所有视频均通过Whisper-1模型生成转录文本，并采用动态帧采样技术提取视觉特征，最终形成包含706个视频、35,476秒影像资料的多模态语料库。

特点

数据集具有显著的多模态特性，同时包含视觉帧序列、语音转录文本和专家标注的框架标签。其跨域设计覆盖了Facebook的短时政治广告与YouTube的长篇企业宣传视频，呈现视频时长、文化背景和标签分布的显著异质性。特别值得注意的是，约37%的Facebook视频缺乏语音转录，凸显了视觉模态在框架分析中的必要性。数据集还具备时空维度多样性，YouTube视频时间跨度达15年，地理覆盖涉及北美、欧洲、亚洲和中东等多重文化语境，为研究框架策略的演变提供了丰富样本。

使用方法

该数据集专为评估视觉语言模型的多标签分类能力而设计，支持零样本和少样本学习范式。研究者在实验中通过动态帧采样与转录片段配对构建输入序列，采用基于CLIP嵌入的实体感知检索机制优化示例选择。基准测试表明，提供领域相关的示例能显著提升模型性能，特别是对细粒度框架类别如'绿色创新'的识别。数据集支持跨域评估、实体级分析和时间趋势研究，可通过HuggingFace平台获取标准化JSON Lines格式数据，为能源传播策略计算分析提供基础支撑。

背景与挑战

背景概述

Multimodal Oil & Gas Benchmark 数据集于2025年由斯坦福大学、普林斯顿大学等机构的研究团队联合创建，旨在解决石油天然气行业广告中潜在的绿色洗白现象。该数据集聚焦于多模态视频内容分析，首次将视觉与文本信息结合，标注了来自Facebook和YouTube平台的706个广告视频，涵盖13种框架类型，跨越20个国家和50余个实体。其核心研究问题在于通过大规模计算手段识别企业战略传播中的隐性框架，推动能源与气候传播领域的量化研究，并为政策制定提供数据支撑。

当前挑战

该数据集面临的领域挑战在于准确检测多模态广告中的绿色洗白框架，尤其是当视觉与文本信息存在矛盾时。构建过程中的具体困难包括：视频长度差异显著，短视频语境模糊导致模型解析困难；部分视频缺乏转录文本，需依赖纯视觉模态分析；标注标签存在不平衡性，低资源类别如'绿色创新'识别精度低；跨文化背景的隐性框架难以捕捉，模型需适应不同地区的广告策略差异。

常用场景

经典使用场景

在能源与环境传播研究领域，Multimodal Oil & Gas Benchmark数据集为多模态框架分析提供了标准化的评估平台。该数据集最经典的应用场景在于评估视觉语言模型对石油天然气行业广告视频中框架策略的识别能力，研究者通过分析视频中的视觉元素与文本内容，系统识别企业传播中的环保创新、社区贡献等13种框架类型，为大规模企业传播策略监测奠定技术基础。

解决学术问题

该数据集有效解决了多模态绿色洗涤检测中的核心学术难题。通过融合视觉与文本模态数据，突破了传统纯文本框架分析的局限性，为研究隐性文化背景下的框架传播机制提供了实证基础。其跨域评估设计显著提升了模型在真实场景中的泛化能力，推动了计算传播学在能源政策研究领域的范式创新。

衍生相关工作

该数据集催生了多模态框架分析的系列创新研究。基于其构建的实体感知提示机制显著提升了小样本场景下的模型性能，相关方法已被扩展应用于政治传播与健康传播领域。同时，其标注体系为后续研究提供了标准化范式，推动了跨文化框架比较研究的方法论革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集