five

XMIDI Dataset|音乐情感分析数据集|音乐流派分类数据集

收藏
github2025-01-16 更新2025-01-17 收录
音乐情感分析
音乐流派分类
下载链接:
https://github.com/xmusic-project/XMIDI_Dataset
下载链接
链接失效反馈
资源简介:
我们构建了XMIDI,这是一个已知最大的带有精确情感和流派标签的符号音乐数据集,包含108,023个MIDI文件。音乐片段的平均时长约为176秒,整个数据集的总时长约为5,278小时。
创建时间:
2025-01-16
原始信息汇总

XMIDI 数据集概述

数据集简介

XMIDI 是一个大规模符号音乐数据集,包含精确的情感和流派标签。该数据集由 108,023 个 MIDI 文件组成,平均每首音乐的时长为 176 秒,总时长约为 5,278 小时。

数据集内容

  • 文件数量: 108,023 个 MIDI 文件
  • 文件命名格式: XMIDI_<Emotion>_<Genre>_<ID_len_8>.midi
    • <Emotion>: 情感标签
    • <Genre>: 流派标签
    • <ID_len_8>: 8 位长度的唯一标识符

下载方式

数据集可通过 Google Drive 下载。

引用

如果 XMIDI 数据集对您的研究有帮助,请引用以下论文:

bibtex @article{xmusic2025, title={XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework}, author={Tian, Sida and Zhang, Can and Yuan, Wei and Tan, Wei and Zhu, Wenjie}, journal={IEEE Transactions on Multimedia}, year={2025}, publisher={IEEE} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
XMIDI数据集的构建基于大规模的音乐数据收集与标注过程,涵盖了108,023个MIDI文件。每个文件均经过精确的情感与流派标注,确保了数据的高质量与多样性。数据集的构建过程中,采用了自动化与人工审核相结合的方式,确保了标注的准确性与一致性。平均每首音乐的时长为176秒,总时长达到5,278小时,为音乐生成与分析提供了丰富的素材。
特点
XMIDI数据集以其大规模与精确标注著称,涵盖了广泛的情感与音乐流派类别。每个MIDI文件均以标准化的命名格式存储,便于用户快速检索与分类。数据集不仅适用于音乐生成任务,还可用于情感分析与音乐风格研究。其多样化的音乐内容与高质量的标注,使其成为音乐信息检索与机器学习领域的宝贵资源。
使用方法
XMIDI数据集的使用方法简便直观,用户可通过Google Drive下载包含所有MIDI文件的压缩包。每个文件的命名格式为`XMIDI_<Emotion>_<Genre>_<ID_len_8>.midi`,便于用户根据情感与流派进行筛选与分析。数据集适用于多种音乐相关的研究任务,如音乐生成、情感分类与风格迁移等。用户可通过引用相关论文,确保研究工作的学术规范性与可追溯性。
背景与挑战
背景概述
XMIDI数据集是由Sida Tian、Can Zhang、Wei Yuan等研究人员于2025年发布的一个大规模符号音乐数据集,旨在推动符号音乐生成领域的研究。该数据集包含108,023个MIDI文件,每个文件均带有精确的情感和流派标签,平均时长为176秒,总时长达到5,278小时。XMIDI的创建标志着符号音乐生成领域的一个重要里程碑,为研究人员提供了一个丰富且多样化的音乐数据资源,支持情感和流派控制的音乐生成任务。该数据集的研究背景源于对音乐生成模型的泛化能力和可控性的需求,特别是在情感和流派表达方面的精确控制。XMIDI的发布不仅为音乐生成算法提供了高质量的基准数据,还推动了音乐信息检索、情感计算等相关领域的发展。
当前挑战
XMIDI数据集在构建和应用过程中面临多重挑战。首先,符号音乐生成领域的一个核心挑战是如何在生成过程中精确控制音乐的情感和流派特征,这要求数据集具备高质量且多样化的标签信息。XMIDI通过提供精确的情感和流派标签部分解决了这一问题,但如何确保标签的准确性和一致性仍是一个技术难点。其次,数据集的构建过程中,研究人员需要处理大量异构的MIDI文件,确保其格式统一且数据质量可靠,这对数据处理和清洗提出了较高要求。此外,如何在大规模数据集上训练高效且可控的音乐生成模型,同时保持生成音乐的多样性和艺术性,也是当前研究中的一个重要挑战。
常用场景
经典使用场景
XMIDI数据集作为一个大规模符号音乐数据集,广泛应用于音乐情感分析和风格分类研究。其精确的情感与流派标签为研究者提供了丰富的标注信息,使得在音乐生成、情感识别及流派分类等任务中,能够进行更为细致的模型训练与验证。该数据集尤其适用于基于深度学习的音乐生成模型,如生成对抗网络(GAN)和变分自编码器(VAE),以生成具有特定情感或风格的音乐作品。
衍生相关工作
XMIDI数据集的发布催生了一系列相关研究,特别是在音乐生成与情感分析领域。例如,基于XMIDI的XMusic框架提出了一个通用的可控音乐生成模型,能够根据用户指定的情感或风格生成音乐。此外,许多研究利用XMIDI数据集开发了新的音乐情感分类算法,进一步推动了音乐信息检索技术的发展。这些工作不仅验证了XMIDI数据集的价值,也为未来的音乐生成与分析研究提供了重要参考。
数据集最近研究
最新研究方向
在音乐信息检索与生成领域,XMIDI数据集以其大规模且精确标注的情感与流派标签,成为推动符号音乐生成研究的重要资源。近年来,随着深度学习技术的快速发展,符号音乐生成模型逐渐从简单的旋律生成转向更具控制性和多样化的音乐创作。XMIDI数据集为研究者提供了丰富的音乐素材,支持情感驱动的音乐生成、跨流派音乐风格迁移等前沿研究方向。特别是在情感计算与音乐生成结合的研究中,XMIDI的精确情感标签为模型训练与评估提供了可靠的基础。此外,该数据集在音乐推荐系统、个性化音乐生成等领域也展现出广泛的应用潜力,为音乐人工智能的发展注入了新的活力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录