seungheondoh/LP-MusicCaps-MTT
收藏Hugging Face2023-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seungheondoh/LP-MusicCaps-MTT
下载链接
链接失效反馈官方服务:
资源简介:
LP-MusicCaps-MTT是一个基于大语言模型的伪音乐描述数据集,用于文本到音乐和音乐到文本的任务。该数据集包含22k音频和88k描述,使用了Magnatagtune数据集中的188个标签进行标签到描述的生成。每个数据实例包含歌曲ID、标题、艺术家名称、标签、伪描述等元属性。数据集分为训练集、验证集和测试集,分别包含18706、1825和5329个样本。需要注意的是,不建议使用caption_attribute_prediction字段,除非用于大规模预训练。
LP-MusicCaps-MTT是一个基于大语言模型的伪音乐描述数据集,用于文本到音乐和音乐到文本的任务。该数据集包含22k音频和88k描述,使用了Magnatagtune数据集中的188个标签进行标签到描述的生成。每个数据实例包含歌曲ID、标题、艺术家名称、标签、伪描述等元属性。数据集分为训练集、验证集和测试集,分别包含18706、1825和5329个样本。需要注意的是,不建议使用caption_attribute_prediction字段,除非用于大规模预训练。
提供机构:
seungheondoh
原始信息汇总
数据集概述
数据集名称
- 名称: LP-MusicCaps-MTT
数据集描述
- 类型: 基于大型语言模型的伪音乐标题数据集,用于
text-to-music和music-to-text任务。 - 构建方法: 使用三个现有的多标签标签数据集和四个任务指令,通过标签到标题生成构建音乐-标题对。
- 数据来源: MusicCaps, Magnatagtune, Million Song Dataset ECALS子集。
数据集详情
- 音频数量: 22k
- 标题数量: 88k
- 标签使用: 使用Magnatagtune中的188个独特标签进行标签到标题生成。
- 数据实例: 每个实例包含多个图像-文本对信息及元属性。
数据字段
| 字段名 | 类型 | 描述 |
|---|---|---|
| track_id | string | 音频唯一标识符 |
| title | string | 歌曲标题 |
| artist_name | string | 表演艺术家名称 |
| release | string | 歌曲发行名称或专辑名称 |
| tag_top50 | list of strings | 歌曲关联的前50个标签 |
| tag_top188 | list of strings | 歌曲关联的前188个标签 |
| caption_writing | string | 通过写作指令生成的伪标题 |
| caption_summary | string | 通过总结指令生成的伪标题 |
| caption_paraphrase | string | 通过改写指令生成的伪标题 |
| caption_attribute_prediction | string | 通过属性预测指令生成的伪标题 |
| pseudo_attribute | list of strings | 用于属性预测的伪属性列表 |
| path | string | 音频文件路径 |
数据分割
- 训练集: 18706
- 验证集: 1825
- 测试集: 5329
使用建议
- 推荐用途: 研究目的。
- 注意事项: 不推荐使用
caption_attribute_prediction和pseudo_attribute,除非用于大规模预训练。
搜集汇总
数据集介绍

背景与挑战
背景概述
LP-MusicCaps-MTT is a pseudo music captioning dataset with 22k audio files and 88k captions, generated using LLMs from music tags for text-to-music and music-to-text tasks. It includes rich metadata, multiple caption variants, and is split into train/valid/test sets for research purposes.
以上内容由遇见数据集搜集并总结生成



