five

seungheondoh/LP-MusicCaps-MTT

收藏
Hugging Face2023-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seungheondoh/LP-MusicCaps-MTT
下载链接
链接失效反馈
官方服务:
资源简介:
LP-MusicCaps-MTT是一个基于大语言模型的伪音乐描述数据集,用于文本到音乐和音乐到文本的任务。该数据集包含22k音频和88k描述,使用了Magnatagtune数据集中的188个标签进行标签到描述的生成。每个数据实例包含歌曲ID、标题、艺术家名称、标签、伪描述等元属性。数据集分为训练集、验证集和测试集,分别包含18706、1825和5329个样本。需要注意的是,不建议使用caption_attribute_prediction字段,除非用于大规模预训练。

LP-MusicCaps-MTT是一个基于大语言模型的伪音乐描述数据集,用于文本到音乐和音乐到文本的任务。该数据集包含22k音频和88k描述,使用了Magnatagtune数据集中的188个标签进行标签到描述的生成。每个数据实例包含歌曲ID、标题、艺术家名称、标签、伪描述等元属性。数据集分为训练集、验证集和测试集,分别包含18706、1825和5329个样本。需要注意的是,不建议使用caption_attribute_prediction字段,除非用于大规模预训练。
提供机构:
seungheondoh
原始信息汇总

数据集概述

数据集名称

  • 名称: LP-MusicCaps-MTT

数据集描述

  • 类型: 基于大型语言模型的伪音乐标题数据集,用于text-to-musicmusic-to-text任务。
  • 构建方法: 使用三个现有的多标签标签数据集和四个任务指令,通过标签到标题生成构建音乐-标题对。
  • 数据来源: MusicCaps, Magnatagtune, Million Song Dataset ECALS子集。

数据集详情

  • 音频数量: 22k
  • 标题数量: 88k
  • 标签使用: 使用Magnatagtune中的188个独特标签进行标签到标题生成。
  • 数据实例: 每个实例包含多个图像-文本对信息及元属性。

数据字段

字段名 类型 描述
track_id string 音频唯一标识符
title string 歌曲标题
artist_name string 表演艺术家名称
release string 歌曲发行名称或专辑名称
tag_top50 list of strings 歌曲关联的前50个标签
tag_top188 list of strings 歌曲关联的前188个标签
caption_writing string 通过写作指令生成的伪标题
caption_summary string 通过总结指令生成的伪标题
caption_paraphrase string 通过改写指令生成的伪标题
caption_attribute_prediction string 通过属性预测指令生成的伪标题
pseudo_attribute list of strings 用于属性预测的伪属性列表
path string 音频文件路径

数据分割

  • 训练集: 18706
  • 验证集: 1825
  • 测试集: 5329

使用建议

  • 推荐用途: 研究目的。
  • 注意事项: 不推荐使用caption_attribute_predictionpseudo_attribute,除非用于大规模预训练。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LP-MusicCaps-MTT is a pseudo music captioning dataset with 22k audio files and 88k captions, generated using LLMs from music tags for text-to-music and music-to-text tasks. It includes rich metadata, multiple caption variants, and is split into train/valid/test sets for research purposes.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作