seungheondoh/LP-MusicCaps-MTT

Name: seungheondoh/LP-MusicCaps-MTT
Creator: seungheondoh
Published: 2023-08-04 10:39:28
License: 暂无描述

Hugging Face2023-08-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/seungheondoh/LP-MusicCaps-MTT

下载链接

链接失效反馈

官方服务：

资源简介：

LP-MusicCaps-MTT是一个基于大语言模型的伪音乐描述数据集，用于文本到音乐和音乐到文本的任务。该数据集包含22k音频和88k描述，使用了Magnatagtune数据集中的188个标签进行标签到描述的生成。每个数据实例包含歌曲ID、标题、艺术家名称、标签、伪描述等元属性。数据集分为训练集、验证集和测试集，分别包含18706、1825和5329个样本。需要注意的是，不建议使用caption_attribute_prediction字段，除非用于大规模预训练。

提供机构：

seungheondoh

原始信息汇总

数据集概述

数据集名称

名称: LP-MusicCaps-MTT

数据集描述

类型: 基于大型语言模型的伪音乐标题数据集，用于text-to-music和music-to-text任务。
构建方法: 使用三个现有的多标签标签数据集和四个任务指令，通过标签到标题生成构建音乐-标题对。
数据来源: MusicCaps, Magnatagtune, Million Song Dataset ECALS子集。

数据集详情

音频数量: 22k
标题数量: 88k
标签使用: 使用Magnatagtune中的188个独特标签进行标签到标题生成。
数据实例: 每个实例包含多个图像-文本对信息及元属性。

数据字段

字段名	类型	描述
track_id	string	音频唯一标识符
title	string	歌曲标题
artist_name	string	表演艺术家名称
release	string	歌曲发行名称或专辑名称
tag_top50	list of strings	歌曲关联的前50个标签
tag_top188	list of strings	歌曲关联的前188个标签
caption_writing	string	通过写作指令生成的伪标题
caption_summary	string	通过总结指令生成的伪标题
caption_paraphrase	string	通过改写指令生成的伪标题
caption_attribute_prediction	string	通过属性预测指令生成的伪标题
pseudo_attribute	list of strings	用于属性预测的伪属性列表
path	string	音频文件路径

数据分割

训练集: 18706
验证集: 1825
测试集: 5329

使用建议

推荐用途: 研究目的。
注意事项: 不推荐使用caption_attribute_prediction和pseudo_attribute，除非用于大规模预训练。

搜集汇总

数据集介绍

背景与挑战

背景概述

LP-MusicCaps-MTT is a pseudo music captioning dataset with 22k audio files and 88k captions, generated using LLMs from music tags for text-to-music and music-to-text tasks. It includes rich metadata, multiple caption variants, and is split into train/valid/test sets for research purposes.

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集