Annotated-MIDI-Dataset
收藏Hugging Face2024-06-28 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/asigalov61/Annotated-MIDI-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个综合注释的MIDI数据集,包含原始歌词、歌词摘要、歌词情感、音乐描述和预训练的MIDI分类模型。数据集的名称是AMD,标签包括MIDI、数据集、注释、注释MIDI、MIDI分类、MIDI注释、MIDI歌词和MIDI歌词摘要。数据集的大小在10K到100K之间,任务类别包括文本分类。
This is a comprehensively annotated MIDI dataset that contains original lyrics, lyric summaries, lyric sentiments, musical descriptions, and a pre-trained MIDI classification model. The dataset is named AMD, and its tags include MIDI, dataset, annotation, annotated MIDI, MIDI classification, MIDI annotation, MIDI lyrics, and MIDI lyric summary. The size of the dataset ranges from 10K to 100K, and its task categories include text classification.
创建时间:
2024-06-28
原始信息汇总
数据集概述
数据集名称
Annotated MIDI Dataset
数据集描述
一个综合性的带注释MIDI数据集,包含原始歌词、歌词摘要、歌词情感、音乐描述、插图、预训练的MIDI分类模型和辅助Python代码。
数据集标签
- midi
- dataset
- annotations
- annotated midis
- midi classification
- midi annotation
- midi lyrics
- midi lyrics summaries
数据集大小
10K<n<100K
任务类别
- text-classification
语言
- en
许可证
cc-by-nc-sa-4.0
安装方法
python import shutil from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="asigalov61/Annotated-MIDI-Dataset", repo_type="dataset", filename="Annotated-MIDI-Dataset-CC-BY-NC-SA.zip", local_dir="." )
shutil.unpack_archive("Annotated-MIDI-Dataset-CC-BY-NC-SA.zip", ".")
数据来源
- 歌词来源:song_lyrics
- 歌词摘要和情感:Mistral-7B-Instruct-v0.2
- 插图和说明:coyo-hd-11m-llavanext
搜集汇总
数据集介绍

构建方式
Annotated-MIDI-Dataset的构建过程体现了多源数据整合与深度标注的精密结合。该数据集通过整合来自song_lyrics的原始歌词,利用Mistral-7B-Instruct-v0.2模型生成歌词摘要与情感分析,并结合coyo-hd-11m-llavanext的插图与Gold Caps的标注信息,形成了一套涵盖音乐描述、插图、歌词情感等多维度的综合数据集。这一构建方式不仅确保了数据的多样性与丰富性,还为音乐信息检索与分类任务提供了坚实的基础。
特点
Annotated-MIDI-Dataset以其全面的标注内容与多样化的数据形式脱颖而出。数据集不仅包含原始MIDI文件,还提供了歌词摘要、情感分析、音乐描述及插图等丰富的辅助信息。这些标注内容为音乐分类、情感分析及跨模态研究提供了宝贵的资源。此外,数据集还附带了预训练的MIDI分类模型与辅助Python代码,极大地方便了研究者的使用与扩展。
使用方法
Annotated-MIDI-Dataset的使用方法简洁高效。用户可通过Hugging Face Hub的snapshot_download接口快速下载数据集,并利用附带的预训练模型与Python代码进行音乐分类、情感分析等任务。数据集还提供了多个在线演示平台,如Music Sentence Transformer与Advanced MIDI Classifer,用户可通过这些平台直观体验数据集的应用效果。这种灵活的使用方式为音乐信息处理研究提供了极大的便利。
背景与挑战
背景概述
Annotated-MIDI-Dataset是一个综合性的MIDI数据集,由asigalov61团队于2024年创建,旨在为音乐信息检索和生成领域提供丰富的标注资源。该数据集不仅包含原始的MIDI文件,还整合了歌词、歌词摘要、歌词情感分析、音乐描述以及插图等多种标注信息。这些标注信息通过先进的自然语言处理模型如Mistral-7B-Instruct-v0.2生成,并结合了来自多个开源数据集的资源。该数据集的发布为音乐分类、情感分析、音乐生成等任务提供了重要的数据支持,推动了音乐与人工智能交叉领域的研究进展。
当前挑战
Annotated-MIDI-Dataset在解决音乐信息检索与生成领域的挑战中面临多重困难。首先,MIDI数据的多样性和复杂性使得标注工作极具挑战性,尤其是在歌词与音乐情感的对齐方面。其次,数据集的构建依赖于多个外部数据源,如歌词数据集和插图数据集,如何确保数据的一致性和质量成为关键问题。此外,MIDI文件的格式多样性和音乐风格的广泛性也对模型的泛化能力提出了更高要求。这些挑战不仅体现在数据集的构建过程中,也直接影响了下游任务如音乐分类和情感分析的性能提升。
常用场景
经典使用场景
Annotated-MIDI-Dataset在音乐信息检索和音乐情感分析领域具有广泛的应用。该数据集通过提供丰富的MIDI文件及其对应的歌词、歌词摘要、情感标签和音乐描述,为研究者提供了一个多模态的音乐分析平台。经典的使用场景包括音乐分类、情感分析以及音乐生成模型的训练与评估。
衍生相关工作
Annotated-MIDI-Dataset的发布催生了一系列相关研究,如基于MIDI的音乐生成模型和音乐情感分析算法。例如,Music Sentence Transformer和Descriptive Music Transformer等模型均基于该数据集进行了训练和优化。这些工作不仅提升了音乐生成的质量,还推动了音乐情感分析技术的进一步发展。
数据集最近研究
最新研究方向
在音乐信息检索领域,Annotated-MIDI-Dataset以其丰富的注释内容,如歌词摘要、情感分析及音乐描述,为研究者提供了前所未有的资源。该数据集不仅支持MIDI文件的分类任务,还通过预训练模型和辅助代码,推动了音乐与文本对齐技术的发展。近期研究聚焦于利用这些注释信息,探索音乐情感与歌词内容的深层次关联,以及如何通过机器学习模型更准确地捕捉音乐的情感表达。此外,该数据集的应用还扩展到了音乐生成和推荐系统,为个性化音乐体验提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



