ecnu-aigc/EMID|音乐情感分析数据集|跨模态数据集数据集

hugging_face2023-08-17 更新2024-03-04 收录

音乐情感分析

跨模态数据集

下载链接：

https://hf-mirror.com/datasets/ecnu-aigc/EMID

下载链接

链接失效反馈

资源简介：

情感配对音乐和图像数据集（EMID）是一个新颖的数据集，旨在实现音乐和图像的情感匹配。EMID数据集包含10,738个独特的音乐片段，每个片段与3张相同情感类别的图像配对，并附有丰富的注释。这些音乐片段根据13种情感类别进行分类，其中1,836个是原始音乐片段。图像则标注了Mikels的八种情感。通过论文中提出的处理流程，原始音乐片段被扩展，最终形成了完整的数据集。数据集以.csv文件形式发布，包含音乐片段和对应情感匹配图像的文件名。数据集的使用受CC BY-NC-SA 4.0许可证限制，适用于非营利工作。

提供机构：

ecnu-aigc

原始信息汇总

数据集概述

Emotionally paired Music and Image Dataset (EMID) 是一个新颖的数据集，旨在用于音乐和图像的情感匹配。EMID 数据集包含 10,738 个独特的音乐片段，每个片段都与同一情感类别的 3 张图像配对，并附有丰富的注释。这些音乐片段被分为 13 个情感类别，这些类别源自 What music makes us feel: At least 13 dimensions organize subjective experiences associated with music across different cultures 的研究，从中我们获得了 1,836 个原始音乐片段。随后，我们从 Building a Large Scale Dataset for Image Emotion Recognition: The Fine Print and The Benchmark 中获取了标记为 Mikels 的八种情感的图像。通过我们论文中提出的处理流程，我们扩展了原始音乐片段，并获得了最终的数据集。

数据集统计

情感类别	扩展前	扩展后
A	45	255
B	80	545
C	54	320
D	131	771
E	306	1531
F	174	889
G	367	1832
H	86	1036
I	36	323
J	124	1014
K	129	799
L	105	484
M	199	939
总计	1836	10738

数据字段

字段名称	解释	示例
Audio_Filename	音乐片段的唯一文件名	106.m4a___172.mp3
genre	代表 13 个情感类别之一的字母 A 到 M	K
feeling	参与者在听完这段音乐后的感受及其比例	"33% Sad, depressing, 22% Awe-inspiring, amazing, 22% Proud, strong, 22% Triumphant, heroic, 19% Dreamy, 15% Beautiful, 15% Bittersweet, 11% Calm, relaxing, serene, 11% Compassionate, sympathetic, 11% Entrancing, 11% Transcendent, mystical, 7% Eerie, mysterious, 7% Painful, 7% Tender, longing, 4% Energizing, pump-up, 4% Indignant, defiant"
emotion	音乐引发的 11 个情感维度的主观体验评分，范围从 1 到 9	"5,5.3,5,6,3.1,6.1,5.1,3.6,6.2,5.9,5.6"
Image1_filename	图像 1 的文件名	excitement_0616.jpg
Image1_tag	图像 1 的情感类别	excitement
Image1_text	由 GIT 模型生成的图像 1 的文本描述	[the marching band in the parade]
Image2_filename	图像 2 的文件名	amusement_2906.jpg
Image2_tag	图像 2 的情感类别	amusement
Image2_text	由 GIT 模型生成的图像 2 的文本描述	[the marching band at disneyland]
Image3_filename	图像 3 的文件名	amusement_2226.jpg
Image3_tag	图像 3 的情感类别	amusement
Image3_text	由 GIT 模型生成的图像 3 的文本描述	[a marching band in a parade with people watching.]
is_original_clip	如果该值为真，则音乐片段来自原始音乐数据集，否则它是通过我们的处理流程从原始音乐片段扩展而来的。原始音乐片段被认为能提供更好的情感匹配性能	False

AI搜集汇总

数据集介绍

构建方式

EMID数据集的构建基于13种情感类别，这些类别源自于音乐情感研究中的13个维度。首先，从原始音乐片段中筛选出1,836个片段，每个片段均标注有特定的情感类别。随后，通过与Mikels的八种情感标签相匹配的图像数据集进行扩展，最终形成包含10,738个音乐片段及其对应情感匹配图像的数据集。这一过程通过特定的处理管道实现，确保了音乐与图像在情感维度上的高度一致性。

特点

EMID数据集的显著特点在于其跨模态的情感匹配能力。每个音乐片段不仅与三张图像配对，还附有详细的情感标签和文本描述，这些描述由GIT模型生成，进一步增强了数据集的语义丰富性。此外，数据集中的音乐片段分为原始和扩展两类，原始片段被认为在情感匹配上表现更优，这一设计为研究者提供了多样化的数据选择。

使用方法

使用EMID数据集时，用户需下载包含音乐片段和图像文件名的CSV文件，并获取相应的音乐和图像数据。数据集适用于音乐与图像情感匹配的研究，尤其适合于跨模态情感分析和生成任务。用户应遵循CC BY-NC-SA 4.0许可协议，确保非商业用途的使用。数据集的情感标签和文本描述为模型训练和评估提供了丰富的标注信息，有助于提升情感识别和生成模型的性能。

背景与挑战

背景概述

情感配对的音乐与图像数据集（EMID）是由华东师范大学（ECNU）人工智能与图形计算实验室（AIGC）创建的，旨在研究音乐与图像之间的情感匹配。该数据集包含了10,738个独特的音乐片段，每个片段都与三个属于同一情感类别的图像配对，并附有丰富的注释。EMID数据集的构建基于13种情感维度，这些维度源自于《What music makes us feel: At least 13 dimensions organize subjective experiences associated with music across different cultures》一文。通过处理管道，原始的1,836个音乐片段被扩展至最终的数据集。该数据集的创建不仅丰富了跨模态情感研究的数据资源，也为情感计算领域提供了新的研究方向。

当前挑战

EMID数据集在构建过程中面临多项挑战。首先，情感匹配的准确性是一个核心问题，如何在音乐和图像之间建立精确的情感关联是一个复杂的过程。其次，数据集的扩展过程中，如何确保新增数据的质量和情感一致性也是一个重要挑战。此外，跨模态数据的处理和标注需要高度专业化的知识和工具，这增加了数据集构建的难度。最后，数据集的使用和推广也面临挑战，如如何确保数据集的广泛应用和持续更新，以及如何处理数据隐私和版权问题。

常用场景

经典使用场景

在情感计算与跨模态研究领域，EMID数据集的经典使用场景主要集中在音乐与图像的情感匹配任务上。通过该数据集，研究者能够训练和评估模型在识别和匹配音乐与图像情感方面的能力，从而推动跨模态情感分析技术的发展。

解决学术问题

EMID数据集解决了跨模态情感分析中的关键学术问题，即如何有效地将音乐与图像的情感信息进行匹配和关联。这一问题的解决不仅提升了情感计算的准确性，还为跨模态情感识别提供了新的研究方向和方法论支持。

衍生相关工作

基于EMID数据集，研究者们开展了多项相关工作，包括跨模态情感识别模型的优化、情感驱动的多媒体内容生成以及情感计算在人机交互中的应用。这些工作不仅丰富了情感计算的理论体系，还推动了相关技术在实际应用中的落地。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录