five

amaai-lab/MidiCaps

收藏
Hugging Face2025-03-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/amaai-lab/MidiCaps
下载链接
链接失效反馈
官方服务:
资源简介:
MidiCaps数据集是一个大规模的MIDI音乐文件数据集,包含168,385个MIDI文件,每个文件都有描述性的文本标题和一组提取的音乐特征。标题是通过一个结合了MIR特征提取和LLM Claude 3的标题生成管道生成的。数据集还提供了详细的音乐特征,如流派、情绪、调性、时间签名、速度等。此外,数据集还包含额外的特征,如乐器总结、和弦总结等。数据集的文件格式为.tar.gz,标题以.json文件形式提供。数据集还提供了一个90/10的训练/测试分割。
提供机构:
amaai-lab
原始信息汇总

MidiCaps 数据集

概述

MidiCaps 数据集是一个包含 168,385 个 MIDI 音乐文件及其描述性文本标题的大型数据集,以及一组提取的音乐特征。

数据集详情

  • MIDI 文件: 168,385 个
  • 文本标题: 168,385 个
  • 音乐特征: 8 个
  • 扩展音乐特征: 2 个

文件格式

  • MIDI 文件: 以 .tar.gz 格式提供
  • 文本标题: 以 .json 文件格式提供

基本文件列

  1. location: 文件解压后的位置
  2. caption: 描述音乐片段的文本标题

特征文件列

  • genre: 前两个检测到的流派及其关联的置信度分数
  • mood: 前五个检测到的心情/主题标签及其关联的置信度分数
  • key: 曲目的主要调式
  • time_signature: 曲目的拍号
  • tempo: 曲目的速度,以每分钟节拍数(bpm)表示,或以古典意大利术语(如 Adagio, Largo, Presto 等)或简化术语(如 Slow, Fast 等)表示
  • duration: 曲目的持续时间,以秒为单位,以及标记为短/中/长的片段
  • chord_summary: 曲目中最频繁的和弦模式
  • instrument_summary: 按演奏时长排序的前 5 个乐器

扩展特征文件列

  • instrument_numbers_sorted: 按演奏时长排序的曲目中存在的乐器编号(根据 MIDI 分配)
  • all_chords: 包含曲目中检测到的所有和弦及其相应的时间标记

引用

如果您使用此数据集,请引用以下论文:

BibTeX:

@article{Melechovsky2024, author = {Jan Melechovsky and Abhinaba Roy and Dorien Herremans}, title = {MidiCaps - A Large-scale MIDI Dataset with Text Captions}, year = {2024}, journal = {arXiv:2406.02255} }

APA: Jan Melechovsky, Abhinaba Roy, Dorien Herremans, 2024, MidiCaps - A large-scale MIDI dataset with text captions. arXiv:2406.02255.

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作