CLIMATEMEMES
收藏arXiv2025-05-23 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.16592v2
下载链接
链接失效反馈官方服务:
资源简介:
CLIMATEMEMES数据集由慕尼黑大学的研究团队创建,包含了来自47个子版块的1184个关于气候变化的网络迷因,这些迷因都被标注了立场和媒体框架。数据集旨在分析不同立场如何通过媒体框架来塑造对气候变化的看法,并为立场检测和媒体框架检测等任务提供了数据基础。数据集的创建过程包括从子版块中收集迷因、过滤与气候变化相关的迷因、标注迷因的立场和媒体框架等步骤。该数据集可用于研究气候变化领域中的媒体框架与立场之间的关系,以及开发相应的自然语言处理模型。
The CLIMATEMEMES dataset was created by a research team at Ludwig Maximilian University of Munich (LMU Munich). It comprises 1,184 climate change-related internet memes sourced from 47 subreddits, all of which are annotated with their respective stances and media framing. This dataset aims to analyze how different stances shape public perceptions of climate change via media framing, and provides a foundational data resource for tasks such as stance detection and media framing detection. The construction process of the dataset includes steps such as collecting memes from subreddits, filtering out climate change-related memes, and annotating the stances and media framing of the collected memes. This dataset can be used to study the relationship between media framing and stance in the field of climate change, as well as to develop corresponding natural language processing models.
提供机构:
慕尼黑大学(德国)
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
CLIMATEMEMES数据集的构建采用了多阶段筛选与标注流程,首先从47个Reddit子论坛中收集了2,015个初始图像样本,通过人工审核确保内容与气候变化主题相关且符合网络模因特征,最终保留1,184个合格样本。标注过程融合了传播学理论框架,由专业研究人员完成双重标注,针对每个模因的立场(确信/怀疑/中立)和媒体框架(如REAL、HOAX等8类)进行细致标注,并辅以OCR文本校正和模因描述生成,Cohen's Kappa系数达到0.83表明高标注一致性。数据采集时间跨度为2016至2024年,覆盖了包括联合国气候峰会在内的关键气候事件节点。
特点
该数据集的核心价值在于其多维标注体系:1) 首次将传播学领域的媒体框架理论系统应用于气候变化模因分析,包含8个细粒度框架类别,如揭示责任分配的ALLOCATION和探讨行动效果的ADEQUACY;2) 样本来源覆盖意识形态对立的社区(如r/ClimateMemes与r/ConservativeMemes),呈现78%确信立场与17.2%怀疑立场的自然分布;3) 每个模因平均标注2.11个媒体框架,通过框架共现分析揭示HOAX与PROPRIETY在怀疑立场模因中的强关联性;4) 配套的视觉-文本对齐数据(校正OCR与人工描述)为多模态研究提供支持。时间维度上,数据集捕捉到2019年气候活动高峰期的框架使用波动。
使用方法
研究者可通过三种路径利用该数据集:1) 任务驱动型应用:支持立场检测和媒体框架识别两项基准任务,论文中采用LLaVA-NeXT等视觉语言模型在4-shot设定下达到86.55%立场检测准确率;2) 跨学科分析:结合传播学标注(幽默类型、责任归属等),可探究框架选择与社区意识形态的关联,例如怀疑立场模因中77.94%采用HOAX框架;3) 时序研究:跟踪特定框架(如ACTION子类)在气候政策事件前后的使用演变。使用建议包括:优先采用人工描述的文本增强输入,注意LLM在框架检测任务上优于VLM的现象,并参考论文提供的子论坛元数据控制社区变量。
背景与挑战
背景概述
CLIMATEMEMES是由LMU Munich和National Research Council Canada等机构的研究团队于2025年创建的气候变化主题网络迷因数据集。作为首个同时标注立场和媒体框架的多模态迷因数据集,它包含来自47个Reddit子论坛的1,184个迷因样本。该数据集旨在探索媒体框架与立场表达的交互关系,特别是气候变化这一全球性议题在社交媒体中的传播模式。其创新性体现在将传播学中的框架理论与自然语言处理技术相结合,为计算社会科学研究提供了重要资源。该数据集通过精细标注的8种媒体框架(如REAL、HOAX、ADEQUACY等)和3种立场分类(确信/怀疑/中立),为分析不同社群的话语策略随时间演变提供了量化基础。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,迷因作为多模态载体,其讽刺、夸张等幽默表达方式增加了立场判读的复杂性,例如视觉隐喻与文本表意的冲突;同时媒体框架的多元共现特性(平均每个迷因含2.11个框架)要求模型具备细粒度语义解构能力。在构建过程层面,数据收集受限于Reddit平台特性,导致确信立场样本占比偏高(78%),且跨平台泛化性存疑;框架标注需平衡传播学理论严谨性与迷因文化特异性,如将道德评判嵌入ALLOCATION框架的妥协方案;此外,视觉语言模型在PROSPECT等抽象框架识别上显著落后于纯文本模型(F1差值达13.6),暴露多模态融合的瓶颈。
常用场景
经典使用场景
CLIMATEMEMES数据集在气候变迁话语研究中扮演着重要角色,尤其在分析网络模因如何通过媒体框架表达立场方面。该数据集包含来自47个Reddit子论坛的1,184个气候变迁模因,每个模因均标注了立场和媒体框架,为研究者提供了丰富的多模态数据资源。其经典使用场景包括探索模因中立场与框架的交互关系,例如分析不同立场的模因如何选择特定的框架来强化其观点。
实际应用
在实际应用中,CLIMATEMEMES数据集被广泛用于社交媒体分析、舆论监测和气候传播策略优化。例如,环保组织可通过分析确信立场模因常用的ADEQUACY框架,设计更有效的气候行动倡议;而政策制定者则可利用HOAX框架的传播模式,识别并应对气候怀疑论的信息扩散。此外,该数据集还为开发自动化的立场检测和框架分类模型提供了训练和评估基础。
衍生相关工作
围绕CLIMATEMEMES数据集已衍生出多项经典研究,包括基于视觉-语言模型(如LLaVA)的立场检测方法改进、媒体框架的多标签分类算法优化,以及结合传播学特征(如幽默类型、责任归属)的细粒度分析框架。相关工作还探索了合成标注与人类标注的互补性,并验证了大型语言模型在框架理解任务上的优越性,为多模态内容理解设立了新的技术标杆。
以上内容由遇见数据集搜集并总结生成



