MoodsMIREX, CAL500, Yang-Dim, MoodSwings, NTWICM, Soundtracks, DEAP, AMG1608, Emotify, Moodo, CH818, 4Q-emotion, DEAM/Mediaeval, PMEmo, Jamendo Moods and Themes, VGMIDI

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/juansgomez87/datasets_emotion

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集涵盖了音乐情感识别领域的多种类型，包括情感分类和维度分析，用于研究音乐如何被感知或诱导情感。

These datasets encompass a variety of types within the field of music emotion recognition, including emotion classification and dimensional analysis, utilized to investigate how music is perceived or induces emotions.

创建时间：

2019-04-23

原始信息汇总

音乐情感识别数据集概述

数据集列表

数据集	年份	内容	格式	大小	类型	感知/诱发
MoodsMIREX	2007	269段（30秒长）	MP3	736MB	分类（5种情绪集群）	感知
CAL500	2007	500首完整歌曲	MP3	366MB	分类（174个标签）	感知
Yang-Dim	2008	195段（25秒长）	-	-	维度	感知
MoodSwings	2008	240段（15秒长）	-	-	维度（时间连续A-V）	感知
NTWICM	2010	2648首完整歌曲	MP3	11.7GB	离散维度	感知
Soundtracks	2011	360+110段（15秒至1分钟长）	MP3	216MB	分类和维度（愉悦、能量、紧张）	感知
DEAP	2012	120段（60秒长）	链接	-	维度	诱发
AMG1608	2015	1608段（30秒长）	WAV	4.3GB	离散维度	感知
Emotify	2016	400段（60秒长）	MP3	363MB	分类（GEMS）	诱发
Moodo	2016	200首（15秒）	WAV	感知颜色	离散维度	感知
CH818	2017	818段（30秒长）	MP3	393MB	维度	感知
4Q-emotion	2018	900段（30秒长）	MP3	291MB	分类（四象限）	感知
DEAM/Mediaeval	2018	2058段（45秒长）	MP3	1.4GB	维度（时间连续A-V）	感知
PMEmo	2018	794首完整歌曲	MP3	1.3GB	维度（时间连续A-V）	诱发
Jamendo Moods and Themes	2019	18486首完整歌曲	MP3	152GB	分类	感知
VGMIDI	2019	200 MIDI文件	MIDI	1.37GB	维度	感知
CCMED-WCMED	2020	800段（8-20秒长）	WAV	-	离散维度	感知

数据集详细信息

Moods MIREX

作者：Hu, X., Downie, J.S., Laurier, C., Bay, M., Ehmann, A.F.
描述和音乐风格：来自Associated Production Music (APM)的精选，涵盖多种音乐风格。
注释策略：由3位评分者进行评分，提取2/3同意的子集。
注释（分类）：5种情绪集群。

CAL500

作者：Turnbull, D., Barrington, L., Torres, D., Lanckriet G.
描述和音乐风格：从作者个人收藏的西方流行音乐中选取。
注释策略：66名本科生进行注释，每小时10美元报酬。
注释（分类）：18种情绪，按1至3级评分。

Yang-Dim

作者：Yang, Y.-H., Lin, Y.-C, Su, Y.-F, Chen, H.-H.
描述和音乐风格：包含西方、中国和日本的流行歌曲。
注释策略：大学学生被要求选择两个值，范围从-1.0到1.0，表示他们对音乐样本的AV值的感受。
注释（维度）：唤醒和价态。

MoodSwings

作者：Kim, Y., Schmidt, E., Emelle, L.
描述和音乐风格：使用美国流行音乐收集时间变化的情绪感知。
注释策略：使用游戏中的两个玩家通过鼠标在连续的AV空间中注释片段。
注释（维度）：时间连续的唤醒和价态注释（1 Hz）。

Now Thats What I Call Music

作者：Schuller, B., Dorfner, J., Gerhard, R.
描述和音乐风格：从“Now That’s What I Call Music!”系列中选择，涵盖多种流行音乐风格。
注释策略：4位评分者对完整歌曲进行静态注释，范围为[-2,-1, 0, 1, 2]。
注释（维度）：唤醒和价态。

Soundtracks

作者：Eerola, T. & Vuoskoski, J. K.
描述和音乐风格：旨在克服已知问题，包含不太知名的例子。
注释策略：由12位专家音乐学家进行初始评分，后由116名大学生重新测试。
注释：分类和维度。

DEAP

作者：Koelstra, S., Muehl, C., Soleymani, M., Lee, J.-S., Yazdani, A., Ebrahimi, T., Pun, T., Nijholt, A., Patras, I.
描述和音乐风格：从YouTube和Last.FM选择视频，记录EEG和生理信号。
注释策略：32名志愿者观看音乐视频并进行评分，同时记录EEG和生理信号。
注释：维度（唤醒、价态和支配性）。

AMG1608

作者：Chen, Y.-A, Yang, Y.-H., Wang, J.-C., Chen, H.-H.
描述和音乐风格：来自AMG的当代西方音乐，定义了34种不同的情绪类别。
注释策略：每位受试者被要求注释13首歌曲，通过在面板上放置光标来指示歌曲的感知VA值。
注释（维度）：唤醒和价态实值，范围[-1,1]。

Emotify

作者：Aljanaki, A., Wiering, F., Veltkamp, R.C.
描述和音乐风格：包括摇滚、古典、流行和电子音乐。
注释策略：使用GEMS量表收集注释，注释分布不均，受实验和游戏设计影响。
注释（分类）：九个类别（惊奇、庄严、温柔、怀旧、平静、力量、快乐激活、紧张、悲伤）。

Moodo

作者：M Pesek, G Strle, A Kavčič, M Marolt
描述和音乐风格：包含200段（15秒），来自电子、民族、流行和电影音乐。
注释策略：741名参与者被呈现10首音乐片段，并被要求选择与音乐片段最相关的颜色。
注释（维度）：唤醒和价态实值，范围[-1,1]，映射到颜色。

CH818

作者：Hu, X., Yang, Y.
描述和音乐风格：中国流行歌曲，来自台湾、香港和中国大陆。
注释策略：每段由三位在中国大陆出生和长大的音乐专家注释，使用连续实值范围[-10,10]的界面。
注释（维度）：唤醒和价态实值，范围[-10,10]。

4Q Emotion Dataset

作者：Panda R., Malheiro R., Paiva R. P.
描述和音乐风格：使用AllMusic API收集音乐信息，提供元数据和30秒音频片段。
注释策略：从AllMusic标签中选择情绪标签，并通过手动盲验证进行验证。
注释（分类）：四象限（A+V+，A+V-，A-V-，A-V+）。

MediaEval Database for Emotional Analysis in Music

作者：Soleymani, M., Aljanaki, A., Yang, Y.
描述和音乐风格：来自freemusicarchive.org、jamendo.com和medleyDB的免费音乐。
注释策略：通过MTurk进行众包，每段至少由10名工作者注释。
注释（维度）：时间连续的唤醒和价态注释（1 Hz）。

PMEmo

作者：Zhang, K., Zhang, H., Li, S., Yang, C., Sun, L.
描述和音乐风格：收集自Billboard Hot 100、iTunes Top 100 Songs (USA)和UK Top 40 Singles Chart的流行歌曲。
注释策略：使用滑块收集动态注释，采样率为2 Hz，静态注释在动态标记后进行。
注释（维度）：时间连续的唤醒和价态注释（2 Hz）。

Jamendo Mood and Theme Subset

作者：Bogdanov, D., Porter A., Tovstogan P., & Won M.
描述和音乐风格：MTG-Jamendo数据集，用于音乐自动标记，包含87种流派标签。
注释策略：从Jamendo平台上的社交媒体标签中众包56种情绪/主题标签。
注释（分类）：56种情绪/主题标签。

VGMIDI

作者：Ferreira, L., Whitehead, J.
描述和音乐风格：包含200个标记的钢琴曲（视频游戏配乐）的MIDI数据集。
注释策略：每首曲目由30名人类受试者根据价态-唤醒模型进行注释，受试者被要求描述他们听到的短曲。
注释（维度）：时间连续的唤醒和价态注释。

CCMED-WCMED

作者：Fan, J., Yang, Y.-H., Gong, K, Pasquier, P.
描述和音乐风格：包含400段西方古典音乐录音和400段中国古典音乐录音。
注释策略：进行两次众包实验以收集情绪注释（唤醒和价态），使用基于排名的方法。
注释（维度）：唤醒和价态实值，范围[-1,1]。

Moodo

作者：M Pesek, G Strle, A Kavčič, M Marolt
描述和音乐风格：包含200段（15秒），来自电子、民族、流行和电影音乐。
注释策略：741名参与者被呈现10首音乐片段，并被要求选择与音乐片段最相关的颜色。
注释（维度）：唤醒和价态实值，范围[-1,1]，映射到颜色。

以上数据集提供了丰富的音乐情感识别资源，涵盖了多种音乐风格、注释策略和情感模型，适用于不同的研究需求和应用场景。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多源音乐片段的收集与情感标注，涵盖了从流行音乐到古典音乐的广泛风格。每个数据集片段均通过专业音乐学者或众包方式进行情感标注，确保标注的多样性和准确性。例如，Mediaeval数据集通过MTurk平台进行众包标注，而PMEmo数据集则由专业音乐学者进行标注。这种多层次的标注策略旨在捕捉音乐情感的复杂性和多样性。

特点

该数据集的显著特点在于其多样性和细致的情感标注。数据集不仅包含了多种音乐风格，还提供了多维度的情感标注，如维度模型中的唤醒度和效价，以及分类模型中的情感类别。此外，部分数据集还提供了时间连续的情感标注，使得研究者能够分析音乐情感的动态变化。这种细致入微的标注方式为音乐情感识别研究提供了丰富的数据支持。

使用方法

使用该数据集时，研究者可以根据研究需求选择合适的音乐片段和标注类型。对于需要分析音乐情感动态变化的研究，可以选择提供时间连续标注的数据集。而对于情感分类研究，则可以选择分类标注的数据集。数据集的多样性使得研究者能够进行跨风格和跨文化的情感识别研究。此外，数据集的详细标注信息和丰富的元数据也为模型的训练和验证提供了坚实的基础。

背景与挑战

背景概述

音乐情感识别（Music Emotion Recognition, MER）作为一个跨学科的研究领域，致力于通过计算手段预测音乐所引发的情感反应。该领域的研究始于2000年代初，由Juan Sebastián Gómez-Cañón、Estefanía Cano、Tuomas Eerola等学者主导，旨在解决音乐情感分类与识别的核心问题。随着个性化和情境敏感应用需求的增加，MER研究逐渐成为信号处理和人工智能领域的热点。其影响力不仅体现在学术界，还推动了音乐推荐系统、情感分析工具等实际应用的发展。

当前挑战

尽管MER领域取得了显著进展，但仍面临诸多挑战。首先，数据集的开放性和实验可重复性问题亟待解决，确保研究结果的可信度和可验证性。其次，情感概念和标注的主观性导致数据集的多样性和一致性难以平衡。此外，模型的可解释性和可理解性也是重要挑战，特别是在处理复杂情感时。文化背景和情境相关性问题同样不容忽视，不同文化对音乐情感的感知存在显著差异。最后，MER应用的伦理问题，如隐私保护和情感操纵，需要深入探讨和规范。

常用场景

经典使用场景

在音乐情感识别（MER）领域，Mediaeval、PMEmo、Jamendo Moods and Themes、VGMIDI等数据集的经典使用场景主要集中在情感预测和分类任务上。这些数据集通过提供丰富的音乐片段及其对应的情感标签，支持研究人员开发和验证情感识别模型。例如，研究人员可以利用这些数据集训练机器学习模型，以预测音乐片段的情感维度（如唤醒度和效价），或进行情感类别的分类（如快乐、悲伤、愤怒等）。

实际应用

在实际应用中，这些数据集支持开发多种音乐情感识别系统，如个性化音乐推荐、情感驱动的音乐治疗、以及情感增强的多媒体内容生成。例如，在音乐推荐系统中，利用这些数据集训练的模型可以根据用户的情感状态推荐合适的音乐，提升用户体验。在音乐治疗领域，这些数据集可以帮助开发基于情感识别的治疗方案，提高治疗效果。

衍生相关工作

基于这些数据集，研究人员开展了多项经典工作。例如，Mediaeval数据集启发了多篇关于情感动态变化的研究，PMEmo数据集促进了情感识别模型的跨文化比较研究。此外，Jamendo Moods and Themes数据集支持了大规模音乐情感分类模型的开发，VGMIDI数据集则推动了MIDI音乐情感识别的研究。这些工作不仅提升了音乐情感识别的准确性，还拓展了其在不同应用场景中的潜力。

以上内容由遇见数据集搜集并总结生成