MER-Bench

github2026-03-14 更新2026-03-15 收录

下载链接：

https://github.com/one-seven17/MER-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MER-Bench是一个用于多模态meme重新评估的综合基准：将负面meme转化为积极/平静/激励的meme，同时保留场景和meme风格。它提供了理论支持的情感目标、配对的图像-文本数据以及多轴评估，用于情感控制、内容保留和质量评估。

MER-Bench is a comprehensive benchmark for multimodal meme re-evaluation: it transforms negative memes into positive, calm, or motivational ones while preserving the scene context and meme style. It provides theoretically grounded emotional targets, paired image-text data, and multi-axis evaluation metrics for emotion control, content retention, and quality assessment.

创建时间：

2026-03-11

原始信息汇总

MER-Bench：多模态表情包重评综合基准数据集概述

数据集基本信息

数据集名称：MER-Bench (Multimodal Meme Reappraisal Benchmark)
核心任务：多模态表情包重评，旨在将负面表情包转化为积极/平静/充满活力的表情包，同时保持原始场景和表情包风格。
主要特点：提供理论驱动的情绪目标、配对的图像-文本数据，以及针对情绪控制、内容保留和生成质量的多维度评估体系。

数据集内容与结构

数据形式：包含原始表情包图像与经过重评生成的表情包图像对。
数据组织：数据集文件需通过Hugging Face CLI从 LeoReverse/17nie 仓库下载，并在本地组织为特定结构。
数据目录结构：
- data/Original/：存放原始表情包图像（如 0001.png, 0002.png 等）。
- data/EditedResults/：存放不同模型生成的重评结果图像，按模型名称（如 BAGEL-7B-MoT/, DreamOmni2/ 等）分子目录存放。
- data/index_final.json：索引文件。

数据集评估维度

数据集评估围绕以下三个核心方面展开：

情绪控制：评估生成表情包在情绪转化上的有效性。
内容保留：评估生成表情包在保留原始场景和风格方面的能力。
生成质量：评估生成图像的整体质量。

评估针对不同的分类子集进行细粒度分析：

视觉模态类别：卡通动漫、物体/动物主导、模板化/风格化表情包、照片/真人。
情感极性：负面、中性、正面。
布局类型：单面板表情包、多面板表情包。

关联模型与可复现性

预生成结果：数据集提供了多种模型（如 BAGEL-7B-MoT, DreamOmni2, FLUX.2-klein-4B, Z-Image-Turbo 等）在基准上的输出结果。
评估脚本：仓库提供了完整的评估代码，可用于复现论文中的主要结果表格（Table 2, Table 3）和结果分析图（Figure 5）。
依赖环境：使用 uv 工具管理Python虚拟环境与依赖。

数据获取与使用

下载地址：https://huggingface.co/datasets/LeoReverse/17nie
下载命令：hf download LeoReverse/17nie --local-dir raw_data/
使用前提：需按照说明设置环境并组织数据目录结构。

搜集汇总

数据集介绍

构建方式

在数字媒体与情感计算交叉领域，MER-Bench数据集的构建体现了严谨的学术方法论。其核心在于系统性地收集原始负面情感模因，并基于心理学中的情绪重评理论，为每个样本设定了积极、平静或充满活力的情感转换目标。通过人工与自动化相结合的方式，数据集生成了成对的图像-文本数据，确保了转换后的模因在维持原始场景与风格一致性的同时，实现了情感效价的定向迁移，为多模态内容生成研究提供了结构化的基准。

使用方法

对于研究者而言，使用MER-Bench需遵循其提供的标准化流程。首先通过Hugging Face平台获取原始数据与预生成模型输出，并按照指定目录结构进行组织。评估阶段通过执行不同的Python脚本，可复现论文中的核心结果，包括模型在整体及各类子类别上的性能对比。通过调整命令行参数，用户能灵活地针对特定视觉类型、情感极性或布局进行聚焦分析，从而系统性地评测多模态模型在情绪重评任务上的综合能力。

背景与挑战

背景概述

在数字媒体时代，网络迷因作为一种融合图像与文本的多模态文化载体，广泛传播于社交媒体，其情感倾向往往直接影响网络舆论氛围。为探索迷因的情感调控与内容再生，由安徽大学、合肥工业大学及合肥综合性国家科学中心智能技术研究所等机构的研究人员联合构建了MER-Bench基准数据集。该数据集聚焦于多模态迷因重评这一核心研究问题，旨在将负面情感迷因转化为积极、平静或充满活力的版本，同时严格保持原始场景与风格。其构建不仅为情感计算与多模态内容生成领域提供了理论指导下的评估标准，也推动了生成模型在细粒度情感控制与内容保真度方面的深入研究。

当前挑战

MER-Bench致力于解决多模态迷因重评任务的复杂挑战，其核心在于要求生成模型在转换迷因情感极性的同时，必须维持原始视觉场景、文本语义及迷因特有风格的完整性。这一任务本身即面临多模态对齐的固有难题，即图像与文本在情感表达上的协同与冲突需被精准调和。在数据集构建过程中，挑战同样显著：如何依据情感理论定义清晰、可操作的重评目标；如何收集并配对高质量、多样化的原始与重评迷因数据，涵盖卡通动漫、实景照片等多种视觉模态及不同版面布局；以及如何设计一套多轴评估体系，以量化模型在情感控制、内容保留与生成质量等多维度的性能表现。

常用场景

经典使用场景

在多媒体情感计算领域，MER-Bench数据集为多模态迷因重评任务提供了标准化的评估框架。该数据集通过将负面情绪迷因转化为积极、平静或充满活力的表达，同时保持原有场景与风格，成为检验生成模型情感调控能力的经典场景。研究人员利用其配对的图文数据与多维度评估指标，系统性地衡量模型在情感转换、内容保持及生成质量方面的综合性能，推动了多模态情感生成技术的精细化发展。

解决学术问题

该数据集有效解决了多模态情感生成研究中情感控制与内容一致性难以兼顾的学术难题。通过引入理论指导的情感目标与结构化评估体系，MER-Bench为量化模型在视觉模态、情感极性与布局类型等细分维度上的表现提供了科学依据。其意义在于建立了迷因重评任务的标准化基准，促进了情感计算与多模态生成交叉领域的理论融合与方法创新，为后续研究提供了可复现、可比较的实验基础。

实际应用

在实际应用中，MER-Bench所支撑的技术可广泛应用于心理健康辅助、社交媒体内容优化与数字娱乐创作等领域。例如，通过自动化迷因情感重评系统，能够帮助用户缓解负面情绪，生成具有积极导向的网络传播内容。其多维度评估机制也为企业开发情感智能编辑工具提供了技术验证标准，助力构建更具情感适应性的数字内容生成平台。

数据集最近研究