Columbia MVSO Image Sentiment Dataset

Name: Columbia MVSO Image Sentiment Dataset
Creator: 哥伦比亚大学
Published: 2016-11-15 00:48:12
License: 暂无描述

arXiv2016-11-15 更新2024-06-21 收录

下载链接：

http://mvso.cs.columbia.edu/download.html

下载链接

链接失效反馈

官方服务：

资源简介：

哥伦比亚MVSO图像情感数据集是由哥伦比亚大学创建的，专注于通过图像表达的情感和情绪。该数据集包含从Flickr网站爬取的700多万张图像，这些图像通过形容词-名词对（ANP）进行标记，旨在通过这些ANP来预测图像的情感倾向。数据集的创建过程中，使用了亚马逊Mechanical Turk平台进行人工标注，确保了数据的质量和多样性。该数据集主要用于评估自动预测图像情感的系统，为情感分析领域提供了重要的基准数据。

The Columbia MVSO Image Emotion Dataset was developed by Columbia University, focusing on emotions and sentiments conveyed through images. This dataset contains over 7 million images crawled from the Flickr website, with each image annotated using Adjective-Noun Pairs (ANPs) to predict the emotional tendencies of images via these ANPs. During the dataset's construction process, manual annotation was carried out via the Amazon Mechanical Turk platform to ensure the quality and diversity of the data. This dataset is primarily used to evaluate automated systems for image emotion prediction, providing critical benchmark data for the field of sentiment analysis.

提供机构：

哥伦比亚大学

创建时间：

2016-11-15

搜集汇总

数据集介绍

构建方式

在视觉情感分析领域，哥伦比亚大学研究团队构建了MVSO图像情感数据集，其核心在于从Flickr在线图像社区中系统性地挖掘与情感紧密相关的形容词-名词对（ANP）。研究团队首先依据Plutchik情感轮理论筛选情感关键词，进而爬取相关图像及元数据，从中识别出频繁出现且具有情感倾向的ANP组合，如“美丽花朵”或“悲伤眼眸”。为确保数据质量，团队进一步采用标签限制策略，仅保留ANP名称直接出现在图像标签中的样本，并过滤图像数量不足的ANP，最终从MVSO多语言库中提取出3,911个英文ANP。每个ANP类别中，研究人员随机选取了3张由不同用户上传且包含相关元数据的图像，形成了用于情感标注的基础图像集合。

特点

该数据集显著特点在于其严谨的多模态情感标注框架与高质量的人工评估机制。数据集不仅包含图像本身，还整合了标题、描述等文本元数据，要求标注者综合视觉与文本信息进行情感判断，从而更贴近人类真实的情感感知过程。情感标注采用精细的五级量表，从“非常消极”到“非常积极”，并额外设置了“对比情感”选项以捕捉图文不一致的情况，增强了标注的细腻度与可靠性。此外，通过亚马逊众包平台实施严格的资格测试与质量控制，仅允许通过测试的标注者参与，确保了标注结果的一致性与可信度。数据分布覆盖了广泛的情感得分范围，为模型训练与评估提供了丰富的情感谱系。

使用方法

该数据集主要作为基准测试资源，用于评估图像或ANP自动情感预测系统的性能。研究者可下载数据集提供的图像URL列表及对应的人工情感标注结果，这些标注以数值形式呈现，便于直接用于监督学习任务。在使用时，建议同时加载图像及其关联的文本元数据，以充分利用数据集的多模态特性。数据可用于训练卷积神经网络或跨模态融合模型，学习从视觉内容与文本上下文中联合推断情感极性。评估过程中，可将模型预测的情感得分与人工标注的聚合分数进行比较，通过相关性分析或分类准确率等指标量化系统性能。数据集的结构化ANP组织也支持针对特定概念的情感分析研究，助力深入探索视觉情感表达的语义基础。

背景与挑战

背景概述

哥伦比亚大学于2016年推出的MVSO图像情感数据集，标志着视觉情感分析领域的重要进展。该数据集由Vaidehi Dalmia、Hongyi Liu及Shih-Fu Chang等学者主导构建，旨在解决图像中情感语义的自动识别难题。其核心创新在于采用形容词-名词对作为情感概念单元，从Flickr平台的海量图像中提取出3911个英语ANP类别，并借助亚马逊众包平台收集了人类对图像情感的一致性标注。这一数据集为跨模态情感计算提供了标准化基准，推动了计算机视觉与自然语言处理在情感理解方向的交叉融合。

当前挑战

该数据集面临的挑战主要体现在两方面：其一，在领域问题层面，视觉情感分析本身具有高度主观性和文化依赖性，同一图像可能引发差异化的情感解读，这对自动化系统的泛化能力提出了严峻考验；其二，在构建过程中，数据质量的控制尤为复杂，包括从嘈杂的网络图像中筛选情感相关性强的ANP、设计兼顾图像与文本的标注流程以提升标注一致性，以及通过众包机制平衡标注效率与可靠性之间的张力，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在视觉情感分析领域，Columbia MVSO Image Sentiment Dataset 作为一项基准资源，常被用于训练和评估图像情感识别模型。该数据集通过众包平台收集了人类对图像及其元数据的情感标注，覆盖了从极度负面到极度正面的连续情感谱系。研究者利用这些标注数据，能够开发算法以自动预测图像或形容词-名词对（ANP）所传达的情感倾向，从而推动计算机视觉与情感计算的交叉研究。

实际应用

在实际应用中，Columbia MVSO数据集为社交媒体内容监控、广告效果评估及用户体验优化提供了关键技术基础。例如，企业可借助基于该数据集训练的模型，自动分析用户上传图片的情感倾向，以实时洞察公众情绪或评估品牌营销活动的反响。此外，在辅助心理状态监测或个性化内容推荐系统中，该数据集亦能助力开发更精准的情感感知应用。

衍生相关工作

基于Columbia MVSO数据集，学术界衍生出一系列经典研究工作。例如，Jou等人提出的多语言视觉情感本体扩展了数据集的跨语言应用范围；Borth等人早期构建的大规模视觉情感检测器为后续模型奠定了基础。这些工作不仅推动了深度学习方法在视觉情感识别中的演进，还促进了跨模态情感分析、零样本学习等前沿方向的探索，持续丰富着情感智能研究的技术图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集