Song Describer Dataset

github2023-12-23 更新2024-05-31 收录

下载链接：

https://github.com/mulab-mir/song-describer-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Song Describer数据集包含约1.1k个针对706个开源音乐录音的描述，用于评估音乐与语言结合的任务，如音乐标注、文本到音乐的生成和音乐-语言检索。

The Song Describer dataset comprises approximately 1.1k descriptions for 706 open-source music recordings, designed to evaluate tasks that integrate music with language, such as music annotation, text-to-music generation, and music-language retrieval.

创建时间：

2023-10-30

原始信息汇总

Song Describer Dataset 概述

数据集基本信息

名称: Song Describer Dataset (SDD)
目的: 用于评估音乐与语言结合的模型，如音乐标注、文本到音乐生成和音乐-语言检索。
内容: 包含约1.1k个对706个开源音乐录音的描述。
许可: 数据集使用CC BY-SA 4.0许可。

数据集详细信息

子集	曲目数	描述数	标注者数	描述平均长度	词汇量	音频长度
完整	706	1106	142	21.7 ± 12.4	2859	~ 2分钟
验证	546	746	114	18.2 ± 7.6	1942	~ 2分钟

数据集下载

下载链接: Zenodo
下载命令: bash wget -P data https://zenodo.org/record/10072001/files/song_describer.csv https://zenodo.org/record/10072001/files/audio.zip unzip data/audio.zip -d data/audio

引用信息

若使用此数据集，请引用以下文献： bib @inproceedings{manco2023thesong, title={The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation}, author={Manco, Ilaria and Weck, Benno and Doh, Seungheon and Won, Minz and Zhang, Yixiao and Bogdanov, Dmitry and Wu, Yusong and Chen, Ke and Tovstogan, Philip and Benetos, Emmanouil and Quinton, Elio and Fazekas, György and Nam, Juhan}, booktitle={Machine Learning for Audio Workshop at NeurIPS 2023}, year={2023}, }

联系方式

联系邮箱: i.manco@qmul.ac.uk

搜集汇总

数据集介绍

构建方式

Song Describer Dataset（SDD）通过精心策划的流程构建，包含约1.1千条描述性字幕，对应706首获得许可的音乐录音。该数据集的构建旨在支持音乐与语言（M&L）任务的模型评估，如音乐字幕生成、文本到音乐生成以及音乐语言检索。数据集的收集方法和验证过程在数据卡中详细说明，确保了数据的质量和多样性。

特点

SDD的显著特点在于其丰富的音乐描述和多样化的音乐风格，涵盖了从复古未来主义到拉丁爵士等多种音乐类型。数据集中的每条字幕平均长度为21.7个词，词汇量达到2859个，音频平均时长约为2分钟。这些特性使得SDD成为评估和训练音乐与语言模型的理想选择。

使用方法

使用SDD数据集时，用户可以通过Zenodo平台下载数据，并使用提供的脚本进行数据解压和处理。建议在Python环境中创建虚拟环境并安装相关依赖，以便运行数据分析和模型训练。数据集的使用还包括通过PyTorch和Hugging Face等平台进行模型训练和评估，具体方法将在后续更新中提供。

背景与挑战

背景概述

Song Describer Dataset（SDD）是由Ilaria Manco、Benno Weck等研究人员于2023年创建的，旨在支持音乐与语言（M&L）任务的评估，如音乐描述、文本到音乐生成以及音乐语言检索。该数据集包含了约1.1千条描述706首许可音乐录音的音频字幕，涵盖多种音乐风格和语言表达。SDD的创建不仅为音乐与语言交叉领域的研究提供了丰富的资源，还通过其多样性和高质量的标注，推动了该领域的技术进步。

当前挑战

SDD在构建过程中面临多项挑战。首先，音乐与语言任务的复杂性要求数据集具备高度的多样性和准确性，以确保模型能够有效学习。其次，音频字幕的生成需要专业的音乐知识和语言表达能力，这增加了数据标注的难度。此外，数据集的规模和质量控制也是一个重要挑战，确保每条字幕都能准确反映音乐的特征。最后，如何确保数据集的广泛适用性和可扩展性，以便支持未来的研究和应用，也是SDD需要解决的问题。

常用场景

经典使用场景

Song Describer Dataset（SDD）在音乐与语言（M&L）领域的经典应用场景主要体现在音乐描述生成、文本到音乐生成以及音乐语言检索等任务中。该数据集通过提供约1.1千条对706首音乐录音的描述，为模型评估提供了丰富的语料资源。研究者可以利用这些描述来训练和测试模型，以生成与音乐内容相匹配的文本描述，或从文本生成相应的音乐片段，从而推动音乐与语言交叉领域的研究进展。

实际应用

在实际应用中，SDD可用于开发智能音乐推荐系统、音乐创作辅助工具以及音乐教育平台。例如，通过分析用户输入的文本描述，系统可以自动生成符合描述的音乐片段，从而为用户提供个性化的音乐体验。此外，SDD还可应用于音乐版权管理，通过文本描述快速检索相似音乐作品，提高版权保护的效率。这些应用不仅提升了用户体验，也为音乐产业带来了新的商业机会。

衍生相关工作

基于SDD，研究者们已经开展了一系列相关工作，包括音乐描述生成模型的优化、文本到音乐生成技术的改进以及音乐语言检索系统的开发。例如，有研究利用SDD数据集训练深度学习模型，成功实现了高质量的音乐描述生成。此外，还有研究者基于SDD开发了新的音乐推荐算法，显著提升了推荐系统的准确性和用户满意度。这些衍生工作进一步拓展了SDD的应用范围，推动了音乐与语言交叉领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集