MusicPile 大型音乐数据集|音乐理解数据集|人工智能数据集
收藏超神经2024-03-18 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/30136
下载链接
链接失效反馈资源简介:
MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括网络语料库、百科全书、音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品、数学内容与代码。数据集包含 id 、 text 和 src 三个字段,每段文本 Token 不超过 2,048 个。 MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。
创建时间:
2024-03-14
