five

MusicPile 大型音乐数据集

收藏
超神经2024-03-18 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/30136
下载链接
链接失效反馈
官方服务:
资源简介:
MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括网络语料库、百科全书、音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品、数学内容与代码。数据集包含 id 、 text 和 src 三个字段,每段文本 Token 不超过 2,048 个。 MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。

MusicPile is a large-scale music-language pre-training dataset jointly launched by Multimodal Art Projection Research Community, Skywork AI and The Hong Kong University of Science and Technology. This dataset contains 5.17 million samples and approximately 4.16 billion Tokens, with sources including web corpora, encyclopedias, music books, YouTube music subtitles, ABC notation works, mathematical content and code. The dataset includes three fields: id, text and src, and the number of Tokens per text segment does not exceed 2,048. MusicPile covers a wide range of music common sense, knowledge Q&A and typical music theory content, and plays a critical role in improving the music understanding and generation capabilities of large language models (LLMs).
创建时间:
2024-03-14
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MusicPile是一个大型音乐-语言预训练数据集,包含517万个样本和41.6亿Token,来源多样,覆盖音乐常识、知识问答及乐理内容,旨在提升大模型的音乐理解与创作能力。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务