TotalDefMeme
收藏arXiv2023-05-29 更新2024-06-21 收录
下载链接:
https://gitlab.com/bottle_shop/meme/TotalDefMemes
下载链接
链接失效反馈官方服务:
资源简介:
TotalDefMeme是由新加坡科技与设计大学创建的大型多模态和多属性表情包数据集,专注于捕捉公众对新加坡全面防御政策的情感态度。该数据集包含5301个表情包,主要来源于社交媒体和谷歌搜索,使用EasyOCR和pHash技术进行文本提取和去重处理。数据集不仅支持社会信息学和公共政策分析,还适用于多模态机器学习任务,如基于方面的立场分类和多模态表情包聚类,旨在通过公众的非正式表达深入理解政策效果。
TotalDefMeme is a large-scale multimodal and multi-attribute meme dataset developed by the Singapore University of Technology and Design (SUTD), which focuses on capturing public emotions and attitudes towards Singapore's Total Defence policy. This dataset includes 5301 memes, primarily sourced from social media and Google Search, with text extraction and deduplication performed using EasyOCR and pHash technologies. It not only supports social informatics and public policy analysis but also is applicable to multimodal machine learning tasks such as aspect-based stance classification and multimodal meme clustering, aiming to gain in-depth insights into policy effectiveness through the informal expressions of the general public.
提供机构:
新加坡科技与设计大学
创建时间:
2023-05-29
搜集汇总
数据集介绍

构建方式
TotalDefMeme数据集的构建始于对新加坡全面防卫政策的深入理解,通过关键词检索与社交媒体爬取相结合的方式,从Google搜索及Reddit、Instagram等公开平台收集了7200条相关模因。随后,研究团队对数据进行了严格的质量筛选:剔除分辨率低于224×224像素或文本超过50个词条的模因,利用EasyOCR提取图像内文字并移除无文本样本,再通过pHash算法识别并去重,最终保留5301条高质量模因。在标注阶段,六名熟悉新加坡文化背景的标注员被招募,每人需先识别模因是否与新加坡相关,随后对相关模因的防卫支柱(军事、民事、经济、社会、心理、数字或其他)、话题标签及立场(支持、反对或中立)进行多属性标注。为确保标注可靠性,每条模因由两人独立标注,存在分歧时引入第三人仲裁,最终通过一致性讨论优化标签质量。
特点
TotalDefMeme数据集的核心特色在于其多模态与多属性并重的设计。它不仅是首个聚焦新加坡全面防卫政策的模因数据集,更突破了传统模因研究仅关注恶意内容(如仇恨言论或虚假信息)的局限,将分析视角延伸至公共政策情感挖掘。数据集中的模因以图像与文字结合的多模态形式呈现,语言以新加坡式英语(Singlish)为主,深刻反映了东南亚本土文化语境。其多属性标注体系涵盖防卫支柱、话题标签及立场三大维度,既支持细粒度的方面级立场分析,也为多模态模因聚类提供了可靠的标注基准。值得注意的是,数据集中军事支柱类模因占比达36%,而数字与社会支柱类样本相对稀缺,这种类别不平衡性恰好为研究长尾分布下的机器学习算法提供了真实挑战。此外,标注过程中立场的标注者间一致性较低(Krippendorff's Alpha仅为0.21),这从侧面反映了模因情感解读的主观性与复杂性,使得该数据集成为探索主观性标注任务的理想测试床。
使用方法
TotalDefMeme数据集为跨学科研究提供了灵活的应用框架。在计算社会科学领域,研究者可借助其多属性标注分析公众对全面防卫政策的情感倾向,例如通过统计各支柱的立场分布来评估政策的社会接受度。在机器学习任务中,该数据集可直接用于多模态方面级立场分类——模型需同时预测模因涉及的防卫支柱及其对应立场,研究者可采用CLIP或VisualBERT等预训练模型提取视觉与文本特征,并通过多任务学习框架进行训练。此外,数据集的标签(如支柱类别和话题标签)可作为多模态模因聚类的真实基准,研究者可基于CLIP嵌入进行k-means聚类,并利用轮廓系数与归一化互信息评估聚类质量。对于领域适应研究,可将TotalDefMeme训练的模型迁移至其他国家的全面防卫模因数据集,以检验跨文化泛化能力。数据集仅限非商业研究用途,使用时需注意版权合规,并可通过GitLab仓库获取完整标注与标注员ID信息。
背景与挑战
背景概述
TotalDefMeme数据集由新加坡科技设计大学的研究人员Nirmalendu Prakash、Ming Shan Hee和Roy Ka-Wei Lee于2023年创建,旨在填补公众对新加坡全面防御政策情绪分析的空白。全面防御是一种结合军事与民事防御的国家政策,被瑞典、瑞士、新加坡等多国采纳,然而其社会成效鲜少通过非结构化数据(如社交媒体迷因)进行评估。传统调查问卷难以捕捉真实民意,而迷因作为数字文化中表达 grievance 与态度的载体,能更直接反映公众对政策的支持或反对。该数据集包含5301个多模态迷因,标注了类型、防御支柱、话题及立场,为计算社会科学与多模态机器学习(如基于方面的立场分类和迷因聚类)提供了基准资源,推动了政策分析与跨学科研究。
当前挑战
TotalDefMeme面临多重挑战:首先,在领域问题层面,迷因的语义复杂性要求模型同时理解图像与文本的交互信息,以准确识别防御支柱(如军事、民事)及相应立场(支持/反对/中立),但现有基线模型(如CLIP)在立场分类上准确率仅54%,支柱分类为57%,表明多模态对齐与细粒度推理的困难。其次,数据集构建中遭遇标注主观性挑战,立场标注的Krippendorff's Alpha仅为0.21,反映不同标注者对迷因讽刺或隐含态度的解读差异;此外,类别不平衡问题显著,军事支柱占比36%,而数字支柱仅1.9%,影响模型泛化能力。最后,迷因聚类任务中,简单k-means方法(如VisualBERT嵌入)的Silhouette得分仅0.094,凸显多模态表征与无监督学习的瓶颈。
常用场景
经典使用场景
TotalDefMeme数据集的核心经典使用场景在于支持多模态方面级立场分类与多模态模因聚类。该数据集通过提供模因图像、文本及多属性标注(包括防御支柱、主题标签和立场倾向),使得研究者能够训练和评估模型,从视觉与语言双模态中联合推断模因所针对的公共政策领域及其表达的支持或反对态度。同时,基于主题和支柱标签的聚类任务,为无监督或半监督的模因语义分组提供了基准,推动了多模态信息融合技术在社交媒体内容理解中的纵深发展。
实际应用
在实际应用中,TotalDefMeme可被政府机构、政策分析团队及社会舆情监测平台用于动态评估全面防卫政策的公众接纳度与潜在风险。通过部署基于该数据集训练的立场分类模型,决策者能够实时追踪社交媒体上围绕军事、民事、经济、社会、心理及数字六大支柱的舆论风向,识别负面情绪聚集的热点话题。此外,该数据集还可跨文化迁移,辅助其他国家构建本土化的国防政策舆情分析系统,提升危机应对与公共沟通策略的科学性。
衍生相关工作
基于TotalDefMeme,研究者已衍生出多个方向的工作。一是多模态方面级立场分类的基准模型构建,如采用CLIP与VisualBERT架构联合预测支柱类别与立场,揭示了跨模态对齐在细粒度情感分析中的关键作用。二是多模态模因聚类方法的探索,通过对比单模态与多模态嵌入的聚类效果,证明了视觉-语言联合表征对语义分组的提升。此外,该数据集还推动了领域自适应研究,即将新加坡语境下训练的模型迁移至其他国家的全面防卫模因分析,验证了多模态特征的泛化能力。
以上内容由遇见数据集搜集并总结生成



