ClassicMemes-50-templates (CM50)

Name: ClassicMemes-50-templates (CM50)
Creator: 哥本哈根大学
Published: 2025-01-24 01:18:30
License: 暂无描述

arXiv2025-01-24 更新2025-01-25 收录

下载链接：

https://github.com/Seefreem/meme_text_retrieval_p1

下载链接

链接失效反馈

官方服务：

资源简介：

CM50数据集由哥本哈根大学的研究团队创建，包含33,172个模因，围绕50个流行的模因模板构建。该数据集旨在通过自动化的注释管道生成高质量的图像描述、模因描述和文学设备标签，解决了手动注释的繁琐问题。数据集的内容主要来源于ImgFlip平台，涵盖了多种模因类型，适用于模因理解和分析任务。该数据集的应用领域包括模因生成、情感分析、文化研究等，旨在提升模因的自动化理解和检索能力。

The CM50 dataset was developed by a research team at the University of Copenhagen, consisting of 33,172 memes constructed around 50 popular meme templates. This dataset aims to generate high-quality image captions, meme descriptions, and literary device tags via an automated annotation pipeline, alleviating the labor-intensive challenges of manual annotation. The content of the CM50 dataset is primarily sourced from the ImgFlip platform, covering a diverse range of meme categories, and is applicable to meme understanding and analysis tasks. Its application domains include meme generation, sentiment analysis, cultural studies, among others, with the core objective of improving automated meme understanding and retrieval capabilities.

提供机构：

哥本哈根大学

创建时间：

2025-01-24

原始信息汇总

数据集概述

数据集名称

Meme-text retrieval 数据集

数据集来源

该数据集由丹麦先锋人工智能中心（Pioneer Centre for Artificial Intelligence）的一个项目创建，项目名称为“Meme-text retrieval: a new dataset and a cross-model embedder”。

数据集内容

数据集分为两个部分：training_set.json 和 validation_set.json。
每个表情包（meme）都有一个链接。

数据集用途

该数据集用于表情包与文本的检索任务，旨在通过跨模型嵌入器实现表情包与文本的匹配。

模型

实验中使用了 CLIP 和 LlaVA-1.6 模型。
有关这些模型的详细信息，请参考其原始仓库。

数据标注

使用 GPT-4o 进行数据标注。
标注后可以使用 post_processing.ipynb 提取特征并检查有效性。
如果存在缺失信息，建议过滤后重新标注。

模板表情包过滤

可以从 Figmemes 和 MemeCap 数据集中过滤出模板表情包。
过滤后会生成一个 HTML 文件，用于可视化配对的模板和实例。

模型微调

提供了微调 CLIP 模型的代码。
可以设置超参数搜索（sweep）为 True 以启用超参数优化。
微调后可以使用 retrieval_test.py 在目标数据集上测试模型。

环境配置

提供了 Linux 环境下的安装指南。
需要安装 Python 3.10 和相关依赖包。
支持训练场景的额外包安装。

快速开始

提供了数据标注、模板表情包过滤和模型微调的快速启动命令。

搜集汇总

数据集介绍

构建方式

ClassicMemes-50-templates (CM50) 数据集的构建基于从ImgFlip平台收集的33,172个模因实例，涵盖了50个经典模因模板。为了确保数据质量，研究团队对数据进行了过滤，仅保留了包含足够长度文本且标题与基础模板不同的模因实例。每个模因实例均通过自动化知识驱动的标注流程进行标注，该流程利用大型视觉-语言模型生成高质量的图像描述、模因描述和文学手法标签。此外，数据集还通过模板元数据和上下文细节（如模板的“关于”部分）进一步丰富了标注内容。

特点

CM50数据集的特点在于其规模化和多样性，涵盖了50个经典模因模板，每个模板下有多个实例，总计超过33,000个模因。数据集不仅提供了模因的图像和文本内容，还包含了自动生成的图像描述、模因描述和文学手法标签。这些标签扩展了传统的文学手法分类，从6类扩展至26类，以更好地捕捉模因中的复杂修辞手法。此外，数据集的标注过程通过自动化流程显著减少了人工标注的需求，确保了标注的一致性和可扩展性。

使用方法

CM50数据集可用于多种模因分析任务，如模因理解、模因生成和模因-文本检索。研究人员可以利用该数据集训练和评估视觉-语言模型，特别是在模因-文本检索任务中，数据集提供了丰富的模因实例和对应的文本描述。此外，数据集中的文学手法标签可用于研究模因中的修辞手法和情感表达。通过结合模板上下文信息，研究人员可以进一步优化模型的性能，特别是在理解模因的深层含义和文化背景方面。

背景与挑战

背景概述

ClassicMemes-50-templates (CM50) 数据集由哥本哈根大学的研究团队于2025年创建，旨在填补现有研究在深度理解与文本检索方面的空白。该数据集包含超过33,000个基于50个流行模因模板的模因，涵盖了广泛的文化与社会表达形式。CM50的创建标志着模因研究从情感分类、生成与传播等表层问题向更深层次的理解与检索任务迈进。通过引入自动化知识驱动的标注流程，CM50不仅显著提升了模因标注的效率，还为模因分析与理解提供了高质量的图像描述、模因描述及文学手法标签。该数据集的发布为大规模模因研究提供了重要资源，推动了模因分析领域的发展。

当前挑战

CM50数据集在构建与应用过程中面临多重挑战。首先，模因的复杂性与多模态特性使得其理解与标注尤为困难，尤其是文学手法与隐喻的识别需要深厚的文化背景知识。其次，自动化标注流程虽然显著减少了人工标注的工作量，但在处理复杂的文学手法时仍存在局限性，尤其是在讽刺、夸张等修辞手法的识别上表现不足。此外，模因的快速演变与多样性要求数据集具备高度的动态性与扩展性，而现有数据集往往难以满足这一需求。最后，模因-文本检索任务中，模型在处理模因标题与图像描述时表现欠佳，尤其是标题的简洁性与上下文缺失进一步增加了检索难度。这些挑战为未来的研究提供了重要的改进方向。

常用场景

经典使用场景

ClassicMemes-50-templates (CM50) 数据集在模因（meme）研究领域中被广泛应用于模因生成、情感分类、传播分析以及文化背景理解等任务。该数据集通过提供50个经典模因模板及其超过33,000个实例，为研究者提供了丰富的多模态数据资源，支持从视觉和文本两个维度对模因进行深入分析。特别是在模因-文本检索任务中，CM50数据集通过其自动化的知识驱动标注框架，显著提升了模因理解与检索的准确性。

衍生相关工作

CM50数据集的发布推动了多个相关研究领域的发展。例如，基于该数据集的研究工作进一步优化了模因生成模型（如MemeCraft）和模因传播分析工具（如MemeGuard）。此外，CM50还为模因的比喻语言理解（如FigMemes）和社会语言学分析（如SEMANTICMEMES）提供了重要的数据支持，推动了模因研究在多模态理解和文化分析方向的深入发展。

数据集最近研究