EmoArt-5k

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/printblue/EmoArt-5k

下载链接

链接失效反馈

官方服务：

资源简介：

EmoArt-5k是一个包含5600幅精心挑选的艺术作品的数据集，涵盖56种绘画风格，每种风格100幅作品。这个数据集是EmoArt数据集的紧凑版，适合用于原型设计、实验和情感感知模型的快速评估。

创建时间：

2025-05-28

原始信息汇总

EmoArt-5k 数据集概述

数据集基本信息

名称: EmoArt-5k
类型: 艺术图像数据集（带情感标注）
规模: 5,600件艺术品（56种绘画风格×100件）
许可证: Creative Commons
完整版: EmoArt-130k

数据集结构

文件格式: 单tar.gz压缩包
目录结构:

/EmoArt-5k/ ├── [风格名称]/ │ ├── image_XXXXX.jpg (100张图像) ├── Annotation.json (统一标注文件)
标注内容:
- 视觉属性描述（笔触/色彩/构图等）
- 情感影响分析
- 情感维度标注（效价/唤醒度）
- 主导情绪标签（12类）
- 治疗效果标注

风格分类

类别	风格数量	图像数量	代表风格
古典与传统	8	800	文艺复兴/巴洛克/新古典主义
印象派相关	6	600	印象派/后印象派/点彩派
现代艺术	12	1,200	立体主义/表现主义/超现实主义
当代艺术	10	1,000	波普艺术/极简主义/街头艺术
地域文化	15	1,500	中国画/浮世绘/伊斯兰艺术
实验性艺术	5	500	数字艺术/概念艺术

核心特点

均衡覆盖56种绘画风格
高分辨率图像（100件/风格）
GPT-4o生成+人工验证的标注
包含治疗效果分析
仅包含公有领域作品

应用场景

情感感知AI模型原型开发
艺术生成模型快速验证
跨文化情感研究
艺术治疗研究
教育资源开发

获取方式

python from datasets import load_dataset ds = load_dataset("printblue/EmoArt-5k")

引用格式

bibtex @inproceedings{zhang2025emoart, title={EmoArt: Enabling Emotion-Aware Generation via a Large-Scale and Annotated Artistic Dataset}, author={Zhang, Cheng}, booktitle={Proceedings of the 33rd ACM International Conference on Multimedia}, year={2025} }

搜集汇总

数据集介绍

构建方式

EmoArt-5k数据集作为EmoArt系列的精简版本，其构建过程体现了严谨的学术规范与艺术代表性。研究团队从56种绘画风格中分别精选100幅作品，通过分层抽样确保各艺术流派均衡覆盖。每件作品均经过GPT-4o生成初始标注后，由专业团队进行双重验证，最终形成包含5600件艺术品的标准化数据集。数据来源严格限定于公有领域资源，采用统一的图像处理流程保证质量，并建立三级审核机制消除文化偏见与敏感内容。

特点

该数据集最显著的特征在于其精巧设计的结构体系与多维情感标注。5600件高分辨率艺术品均匀分布在从文艺复兴到数字艺术的56种风格中，每件作品配备12类情感标签、情绪效价与唤醒度二元指标。创新性地融合了视觉属性分析（笔触、色彩、构图）与治疗潜力评估，通过层次化JSON结构实现美学特征与情感反应的深度关联。这种将艺术技法分析与心理学维度相结合的标注体系，为跨模态研究提供了独特价值。

使用方法

研究者可通过Hugging Face平台便捷获取该数据集，支持整体压缩包下载或API调用两种方式。使用load_dataset函数加载时需通过身份验证，数据集以标准目录树结构组织，配套的Annotation.json文件采用模块化设计，包含作品描述、视觉属性、情感影响等结构化字段。建议预处理时注意不同艺术风格的图像尺寸差异，情感标签可结合arousal_level和valence字段进行多任务学习。该数据集特别适合作为EmoArt-130k全量数据集的预处理基准，其轻量级特性有利于快速验证情感计算模型的跨文化适应性。

背景与挑战

背景概述

EmoArt-5k数据集是由吉林大学张成团队于2025年构建的一个专注于艺术作品中情感识别的小型数据集。作为EmoArt-130k数据集的精简版本，它包含了来自56种不同绘画风格的5600幅高质量艺术作品，每种风格精选100幅代表性作品。该数据集的建立旨在为情感感知模型的快速原型设计和初步评估提供资源，特别是在艺术治疗、跨文化情感研究等领域展现出重要价值。通过结合GPT-4o生成和人工验证的标注方式，数据集提供了包括情感标签、视觉属性、情绪唤醒度等多维度注释信息，为计算机视觉与情感计算的交叉研究提供了新的基准。

当前挑战

在艺术情感识别领域，EmoArt-5k致力于解决两个核心挑战：一是艺术作品情感标注的主观性问题，不同文化背景的观察者可能对同一作品产生截然不同的情感解读；二是跨风格情感表征的复杂性，从古典主义到数字艺术等56种风格间的视觉特征差异极大。在数据集构建过程中，研究人员面临标注一致性的维护难题，需要平衡AI标注效率与人工验证精度；同时，为确保文化代表性，需从海量开放资源中筛选符合各风格美学特征的作品，这一过程涉及复杂的版权清理与质量控制工作。

常用场景

经典使用场景

在艺术与情感计算的交叉领域，EmoArt-5k数据集为研究者提供了一个标准化的实验平台。该数据集通过涵盖56种绘画风格的5600幅作品，支持跨风格情感特征提取算法的开发与验证。其经典应用场景包括构建基于深度学习的艺术图像情感分类模型，研究者可利用标注中的视觉属性和情感维度，训练卷积神经网络或视觉Transformer模型，实现从艺术作品中自动识别快乐、悲伤等12种情感类别。

实际应用

在医疗健康领域，该数据集支持艺术治疗方案的智能化设计。临床心理学家可基于作品的情感标注构建推荐系统，为不同心理状态患者匹配具有特定疗愈效果的艺术作品。教育科技领域则利用其开发美育辅助工具，通过分析学生对不同风格作品的情感反应，实现个性化的艺术鉴赏课程推荐。

衍生相关工作

该数据集已催生多项创新研究，包括跨模态情感生成模型ArtEmoGAN，其通过联合学习视觉特征与情感标注，实现了给定情感提示的艺术创作。在文化遗产数字化方向，衍生出基于风格-情感映射的古代绘画修复系统。相关成果见于ACM Multimedia等顶会，推动了AIGC在艺术领域的技术落地。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集