five

CLIMATEMEMES

收藏
arXiv2025-05-22 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.16592v1
下载链接
链接失效反馈
官方服务:
资源简介:
CLIMATEMEMES数据集是一个包含1184个关于气候变化的互联网迷因的数据集,这些迷因来自47个subreddits。每个迷因都被标注了立场(坚信、怀疑或中立)和媒体框架(真实、骗局、原因、影响、行动、分配、适当性、充足性和前景)。该数据集旨在帮助研究者分析和理解气候迷因中的立场和媒体框架的相互作用,并为迷因理解任务(如立场检测和媒体框架检测)提供数据支持。

The CLIMATEMEMES dataset is a curated collection of 1,184 climate change-related internet memes sourced from 47 distinct subreddits. Each meme in the dataset is annotated with two core attributes: stance (believer, skeptic, or neutral) and media frame, which encompasses nine categories: real, hoax, cause, impact, action, distribution, appropriateness, sufficiency, and outlook. This dataset is intended to support researchers in analyzing and interpreting the interplay between stances and media frames present in climate memes, while also providing valuable data resources for meme understanding tasks including stance detection and media frame detection.
提供机构:
慕尼黑大学媒体与传播系
创建时间:
2025-05-22
搜集汇总
数据集介绍
main_image_url
构建方式
CLIMATEMEMES数据集的构建采用了多阶段流程,首先从47个Reddit子论坛中收集了2,015个初始图像样本。通过严格的筛选机制,包括人工审核确保内容与气候变化主题相关且符合网络模因特征,最终精选出1,184个有效样本。每个模因均经过专业标注,涵盖立场(确信/怀疑/中立)和媒体框架(如REAL、HOAX等8个类别)双重维度,并辅以OCR校正和人工撰写的模因说明文本,确保数据质量与研究适用性。
特点
该数据集具有鲜明的跨学科特色,首次将传播学领域的媒体框架理论与计算语言学任务相结合。其核心价值体现在三方面:样本覆盖气候变化讨论中对立立场(78%确信 vs 17.2%怀疑),完整标注了8种媒体框架的共现关系(平均每个模因含2.11个框架),并捕捉了时间维度上的框架演变趋势(如2019年气候峰会期间的框架使用峰值)。特别值得注意的是,数据集揭示了立场与框架的强关联性——例如HOAX框架在怀疑立场模因中的占比高达77.94%,而确信立场则倾向使用ADEQUACY等多元化框架。
使用方法
该数据集支持三类典型应用场景:首先可作为多模态分类任务的基准,用于训练立场检测和框架识别模型;其次适用于时序分析,研究不同社群随时间推移的框架使用演变规律;最后支持跨模态理解研究,通过结合视觉元素与文本特征分析信息传递机制。使用建议采用8:2划分训练测试集,输入模态可灵活组合原始图像、OCR文本及人工/合成说明文本。实验表明,视觉语言模型(VLMs)在立场检测表现优异(LLaVA达86.55%准确率),而纯语言模型(LLMs)在框架识别任务上更具优势,凸显多模态协同研究的必要性。
背景与挑战
背景概述
CLIMATEMEMES数据集由LMU Munich和National Research Council Canada的研究团队于2025年创建,旨在探索气候变化网络模因中立场与媒体框架的交互关系。作为首个同时标注立场和媒体框架的气候变化模因数据集,其1184条样本来自47个Reddit子论坛,覆盖了从2016年至2024年的跨时空数据。该数据集创新性地将传播学框架理论引入多模态模因分析,通过REAL、HOAX等8类媒体框架标签,揭示了不同立场持有者的叙事策略差异。其核心研究价值在于建立了模因这种非正式传播载体与气候变化这一重大社会议题之间的分析桥梁,为计算社会科学领域提供了重要的实证研究基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多模态模因中隐含立场与显性框架的复杂映射关系,特别是当幽默修辞(如反讽、夸张)与政治立场交织时,模型对HOAX等否定性框架的识别准确率显著下降。在构建过程中,数据筛选面临模因定义模糊性的挑战——需区分政治漫画与模因的界限,且气候主题相关性判断受文化背景影响。此外,细粒度框架标注存在主观性难题,如ACTION框架细分为4个子类时,标注者间一致性从0.83(原始框架)降至0.74。多模态模型(如LLaVA)在视觉-文本协同理解上表现不稳定,当火焰等隐喻元素出现时,REAL框架误判率达42.3%。
常用场景
经典使用场景
CLIMATEMEMES数据集在气候变迁话语分析中展现了其独特价值,尤其适用于研究互联网模因如何通过视觉和文本元素的结合传达立场和媒体框架。该数据集广泛应用于计算社会科学领域,帮助研究者理解不同立场持有者如何通过特定的媒体框架塑造公众对气候变迁的认知。例如,研究者可以利用该数据集分析气候活动家和怀疑论者在模因中使用的不同叙事策略,揭示框架选择与立场表达之间的复杂互动关系。
解决学术问题
该数据集有效解决了气候变迁话语研究中两个关键学术问题:立场检测与媒体框架分析的交叉研究空白,以及多模态内容(图像-文本组合)的框架表达机制问题。通过标注1,184个气候模因的立场(确信/怀疑/中立)和8类媒体框架(如REAL、HOAX等),研究者首次能定量分析框架偏好与立场的相关性。例如数据显示77.94%的怀疑立场模因使用HOAX框架,而确信立场模因则更倾向ADEQUACY等多元框架,这种发现为理解意识形态如何影响气候传播提供了实证基础。
衍生相关工作
基于CLIMATEMEMES的标注体系,后续研究衍生出三个重要方向:一是扩展至其他争议性议题(如疫苗接种)的模因分析框架;二是开发融合传播学理论的跨学科标注工具,如新增幽默类型(双关/夸张)和个人化特征(政治人物/NGO)标注维度;三是推动多模态大模型在细粒度框架理解上的进步,相关工作发现LLM在框架检测上优于VLM(F1差达12.55),这启发了新型模型架构的探索。数据集还促进了与Media Frames Corpus等文本框架资源的跨模态研究方法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作