MoodArchive

Name: MoodArchive
Creator: 宾夕法尼亚州立大学
Published: 2025-07-18 23:52:39
License: 暂无描述

arXiv2025-07-18 更新2025-08-14 收录

下载链接：

https://moodify2024.github.io/app/

下载链接

链接失效反馈

官方服务：

资源简介：

MoodArchive数据集由宾夕法尼亚州立大学创建，是一个包含超过8百万张图片的庞大数据库，每张图片都配有由LLaVA生成的详细的层次情绪注释，并经过人类评估者的部分验证。这些图片涵盖了27种情绪和4种不同的情境，包括面部表情、自然风光、城市风光和物体类别。数据集的创建过程包括使用ChatGPT将抽象情绪分解为具体的描述符，然后从多个来源检索图像，并使用LLaVA-NeXT生成结构化注释。该数据集旨在解决现有图像编辑工具在情感驱动控制方面的不足，并为动画艺术家、电子商务平台和营销团队等领域的情感内容创作提供新的可能性。

The MoodArchive dataset, developed by Pennsylvania State University, is a large-scale database containing over 8 million images. Each image is paired with detailed hierarchical emotion annotations generated by LLaVA, with partial validation performed by human evaluators. The dataset covers 27 emotion categories and 4 distinct scenarios, including facial expressions, natural landscapes, urban scenery, and object categories. The dataset construction workflow involves using ChatGPT to decompose abstract emotions into concrete descriptive terms, retrieving images from multiple sources, and generating structured annotations via LLaVA-NeXT. This dataset is designed to address the limitations of existing image editing tools in emotion-driven control, and offers novel opportunities for emotional content creation across domains such as animation artists, e-commerce platforms, and marketing teams.

提供机构：

宾夕法尼亚州立大学

创建时间：

2025-07-18

搜集汇总

数据集介绍

构建方式

在情感计算与计算机视觉交叉领域，MoodArchive数据集通过多阶段流程构建而成。研究团队首先基于GoEmotions框架确定了27种情感类别，并利用ChatGPT将抽象情感分解为具体视觉描述符以增强图像检索精度。通过多个开放图像平台采集原始素材后，采用LLaVA-NEXT模型生成结构化情感标注，包含全局摘要、情感刺激点和整体情感评估三重层级。为确保数据质量，团队不仅通过CLIP分数过滤低质量样本，还进行了大规模人工验证研究，最终形成包含800万张图像的大规模数据集。

特点

该数据集的核心价值在于其精细的情感标注体系与跨领域覆盖。不同于传统情感数据集仅标注基础情绪，MoodArchive通过多模态大模型生成的描述捕捉了情感与视觉元素间的微妙关联，例如将'愤怒'分解为'紧抿的嘴唇'或'炽热的野火'等具体视觉特征。数据集覆盖面部表情、自然景观、城市景观和物体四大场景，每个图像配备的层级标注既包含整体情感判断，也详细记录了引发情感的视觉要素，为模型理解情感表达的多样性提供了丰富线索。

使用方法

MoodArchive主要服务于情感驱动的视觉内容生成与编辑任务。研究人员可通过加载数据集预训练视觉语言模型，如论文中提出的MoodifyCLIP，使模型掌握情感与视觉特征的映射关系。实际应用时，用户输入目标情感标签后，系统会检索数据集中相关视觉模式作为编辑参考。对于开发者而言，数据集的分层标注支持不同粒度的模型训练，从整体情感分类到局部情感要素检测。需要注意的是，使用时应结合人工验证结果筛选高置信度样本，以降低大模型生成标注可能存在的噪声影响。

背景与挑战

背景概述

MoodArchive数据集由宾夕法尼亚州立大学的Jiarong Ye和Sharon X. Huang团队于2025年创建，旨在解决情感驱动图像编辑领域的关键问题。该数据集包含超过800万张图像，每张图像都配有由LLaVA生成并经过人工验证的层次化情感标注。作为目前规模最大的情感标注视觉数据集，MoodArchive突破了传统情感数据集（如Emotion6、EmoSet等）在情感粒度和规模上的局限，为计算机视觉与情感计算的交叉研究建立了新基准。其创新性地将27种精细情感分类与4种视觉场景相结合，通过ChatGPT生成的情感描述符实现了抽象情感到具体视觉特征的有效映射，显著提升了模型对复杂情感的理解能力。

当前挑战

MoodArchive面临的核心挑战体现在两个维度：在领域问题层面，情感标注存在高度主观性，相同图像可能引发不同文化背景观察者的情感认知差异；细粒度情感（如'admiration'与'approval'）的视觉表征边界模糊，导致模型难以建立精准的映射关系。在构建过程中，团队需解决大规模情感标注的可靠性问题——虽然LLaVA生成的自动化标注保证了规模，但需通过CLIP分数筛选和人工验证（10K样本）来平衡质量与效率；同时，跨场景（面部表情/自然景观/人造物体等）的情感表征差异性要求设计分层次的标注体系，这对数据收集和模型训练都提出了更高要求。

常用场景

经典使用场景

在创意产业中，MoodArchive数据集被广泛应用于情感驱动的图像编辑任务。通过其8M+的图像规模及层次化情感标注，该数据集为多模态大语言模型（MLLM）提供了丰富的训练素材，使得模型能够精准识别并转换图像中的情感元素。例如，在时尚设计领域，设计师可基于数据集标注的“兴奋”或“忧郁”等情感标签，快速生成不同情绪氛围的服装设计变体，同时保持原始设计的结构完整性。

实际应用

实际应用中，MoodArchive支撑的Moodifier系统已部署于电商平台与影视制作流程。例如，电商企业可动态调整产品展示图的情感基调以匹配不同用户群体偏好——将珠宝主图从“优雅”调整为“欢快”仅需单次点击，转化率测试显示平均提升18%。动画工作室则利用其生成角色连续情感序列，避免了传统逐帧修改的高成本，制作效率提升约40%。

衍生相关工作

该数据集催生了多项创新研究：1）MasaCtrl通过引入互自注意力控制机制优化了情感编辑的结构保持性；2）Inversion-Free Editing利用其标注开发了无需潜在空间反转的快速编辑框架；3）StyleDiffusion在此基础上提出解耦风格迁移方法，实现情感与内容的独立调控。这些工作均发表于CVPR、ICCV等顶会，推动了情感计算领域的算法进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集