amaai-lab/MidiCaps
收藏Hugging Face2025-03-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/amaai-lab/MidiCaps
下载链接
链接失效反馈官方服务:
资源简介:
MidiCaps数据集是一个大规模的MIDI音乐文件数据集,包含168,385个MIDI文件,每个文件都有描述性的文本标题和一组提取的音乐特征。标题是通过一个结合了MIR特征提取和LLM Claude 3的标题生成管道生成的。数据集还提供了详细的音乐特征,如流派、情绪、调性、时间签名、速度等。此外,数据集还包含额外的特征,如乐器总结、和弦总结等。数据集的文件格式为.tar.gz,标题以.json文件形式提供。数据集还提供了一个90/10的训练/测试分割。
提供机构:
amaai-lab
原始信息汇总
MidiCaps 数据集
概述
MidiCaps 数据集是一个包含 168,385 个 MIDI 音乐文件及其描述性文本标题的大型数据集,以及一组提取的音乐特征。
数据集详情
- MIDI 文件: 168,385 个
- 文本标题: 168,385 个
- 音乐特征: 8 个
- 扩展音乐特征: 2 个
文件格式
- MIDI 文件: 以 .tar.gz 格式提供
- 文本标题: 以 .json 文件格式提供
基本文件列
- location: 文件解压后的位置
- caption: 描述音乐片段的文本标题
特征文件列
- genre: 前两个检测到的流派及其关联的置信度分数
- mood: 前五个检测到的心情/主题标签及其关联的置信度分数
- key: 曲目的主要调式
- time_signature: 曲目的拍号
- tempo: 曲目的速度,以每分钟节拍数(bpm)表示,或以古典意大利术语(如 Adagio, Largo, Presto 等)或简化术语(如 Slow, Fast 等)表示
- duration: 曲目的持续时间,以秒为单位,以及标记为短/中/长的片段
- chord_summary: 曲目中最频繁的和弦模式
- instrument_summary: 按演奏时长排序的前 5 个乐器
扩展特征文件列
- instrument_numbers_sorted: 按演奏时长排序的曲目中存在的乐器编号(根据 MIDI 分配)
- all_chords: 包含曲目中检测到的所有和弦及其相应的时间标记
引用
如果您使用此数据集,请引用以下论文:
BibTeX:
@article{Melechovsky2024, author = {Jan Melechovsky and Abhinaba Roy and Dorien Herremans}, title = {MidiCaps - A Large-scale MIDI Dataset with Text Captions}, year = {2024}, journal = {arXiv:2406.02255} }
APA: Jan Melechovsky, Abhinaba Roy, Dorien Herremans, 2024, MidiCaps - A large-scale MIDI dataset with text captions. arXiv:2406.02255.



