SEACrowd/total_defense_meme

Name: SEACrowd/total_defense_meme
Creator: SEACrowd
Published: 2024-06-24 13:23:18
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/total_defense_meme

下载链接

链接失效反馈

官方服务：

资源简介：

Total Defense Meme数据集是一个大规模的多模态多属性数据集，包含关于新加坡全面防御政策的表情包，这些表情包来自不同的社交媒体平台。每个表情包的类型（新加坡或通用）、支柱（军事、民事、经济、社会、心理、数字、其他）、主题和立场（反对、中立、支持）都由注释者手动识别。数据集支持光学字符识别和多标签图像分类任务。

提供机构：

SEACrowd

原始信息汇总

Total Defense Meme 数据集概述

基本信息

名称: Total Defense Meme
语言: 英语 (eng)
任务类别:
- 光学字符识别 (Optical Character Recognition)
- 多标签图像分类 (Image Classification Multilabel)
标签:
- 光学字符识别
- 多标签图像分类

数据集描述

规模: 大规模多模态和多属性数据集
内容: 包含关于新加坡全面防御政策的表情包，来自不同的社交媒体平台。
属性:
- 类型: 新加坡或通用
- 支柱: 军事、民事、经济、社会、心理、数字、其他
- 主题和立场: 反对、中立、支持
标注: 由标注者手动识别每个表情包的类型、支柱、主题和立场。

使用方法

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/total_defense_meme", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("total_defense_meme", schema="seacrowd")

检查数据集的所有可用子集（配置名称）

print(sc.available_config_names("total_defense_meme"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可证

许可证: 未知 (Unknown)

引用

bibtex @inproceedings{10.1145/3587819.3592545, author = {Prakash, Nirmalendu and Hee, Ming Shan and Lee, Roy Ka-Wei}, title = {TotalDefMeme: A Multi-Attribute Meme dataset on Total Defence in Singapore}, year = {2023}, isbn = {9798400701481}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3587819.3592545}, doi = {10.1145/3587819.3592545}, booktitle = {Proceedings of the 14th Conference on ACM Multimedia Systems}, pages = {369–375}, numpages = {7}, keywords = {multimodal, meme, dataset, topic clustering, stance classification}, location = {Vancouver, BC, Canada}, series = {MMSys 23} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在数字媒体与社会科学交叉领域，Total Defense Meme数据集通过系统化采集与人工标注构建而成。研究团队从多个社交媒体平台广泛搜集涉及新加坡全面防卫政策的网络模因，形成大规模多模态资源。随后，由专业标注人员对每个模因进行细致的人工识别，标注其类型归属、支柱类别、主题内容及立场倾向，确保数据标注的准确性与一致性，为后续分析奠定坚实基础。

特点

该数据集作为专注于新加坡全面防卫政策的多属性模因集合，具备显著的多模态与多维度特性。其内容涵盖军事、民事、经济、社会、心理及数字六大支柱，并延伸至其他相关范畴，同时精确标注了支持、中立或反对的立场倾向。这种结构化的多属性设计，为研究模因在公共政策传播中的角色提供了丰富的分析维度，支持光学字符识别与多标签图像分类等多元任务。

使用方法

研究人员可通过`datasets`或`seacrowd`库便捷地加载此数据集。使用`datasets`库时，调用`load_dataset`函数并指定相应路径即可获取数据。若采用`seacrowd`库，则需先导入该库，通过`load_dataset`函数并选择`seacrowd`模式加载，或利用`available_config_names`查询可用子集后按需加载特定配置。详细操作指南可参考项目文档，以实现数据的高效访问与应用。

背景与挑战

背景概述

在数字媒体与计算社会科学交叉领域，多模态数据集的构建对于理解网络文化现象至关重要。Total Defense Meme数据集由新加坡研究人员于2023年创建，旨在系统性地收集与分析围绕新加坡全面防卫政策的网络迷因。该数据集由Nirmalendu Prakash、Ming Shan Hee和Roy Ka-Wei Lee等学者主导，核心研究问题聚焦于通过多属性标注揭示迷因在军事、民事、经济、社会、心理及数字等维度的表达模式与立场倾向，为东南亚地区的多模态计算与立场分析提供了重要的实证基础。

当前挑战

该数据集致力于解决多模态迷因在立场分类与主题聚类中的复杂挑战，其难点在于迷因图像与文本的语义融合及文化语境的理解。在构建过程中，研究人员面临标注一致性的难题，需对迷因的类型、支柱、主题与立场进行人工精细标注，确保跨平台数据的社会文化属性准确捕捉。此外，数据集涵盖多属性与多模态特征，在数据清洗与标准化处理上亦存在技术障碍，需平衡规模与质量以支撑稳健的模型训练。

常用场景

经典使用场景

在数字媒体与计算社会科学领域，Total Defense Meme数据集为研究者提供了探索多模态内容分析的经典场景。该数据集聚焦于新加坡全面防卫政策的网络迷因，通过整合图像与文本信息，支持光学字符识别与多标签图像分类任务。研究者可借此分析迷因的类型、支柱、主题及立场等多重属性，深入理解社交媒体中政治传播的视觉修辞策略，从而揭示公众对国防政策的复杂情感与认知模式。

衍生相关工作

基于该数据集衍生的经典工作主要集中在多模态分类与立场分析框架的构建。例如，原研究团队在ACM多媒体系统会议上提出的主题聚类与立场分类方法，为后续研究设立了基准。同时，SEACrowd数据枢纽将其纳入东南亚多语言多模态基准套件，进一步激发了跨区域比较研究，推动了针对本土化数字内容的机器学习模型创新与评估标准化。

数据集最近研究