five

m-a-p/MusicPile

收藏
Hugging Face2024-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/MusicPile
下载链接
链接失效反馈
官方服务:
资源简介:
MusicPile是首个用于开发大型语言模型音乐能力的预训练语料库,包含5.17M样本和约4.16B个token,涵盖了网页爬取的语料、百科全书、音乐书籍、YouTube音乐字幕、abc记谱法的音乐作品、数学内容和代码等。数据集主要由公开数据集和MAP成员手工制作的高质量数据组成,并详细列出了各个数据源的贡献。数据集的结构包括id、text和src三个字段,每个文本的token数量不超过2048。

MusicPile is the first pre-training corpus for developing the musical capabilities of large language models. It contains 5.17M samples and approximately 4.16B tokens, covering web-crawled corpora, encyclopedias, music books, YouTube music subtitles, musical works in ABC notation, mathematical content, and code, among others. The dataset is mainly composed of publicly available datasets and high-quality data manually curated by MAP members, with detailed contributions from each data source listed. The structure of the dataset includes three fields: id, text, and src, and the token count of each text does not exceed 2048.
提供机构:
m-a-p
原始信息汇总

数据集概述

MusicPile 是首个用于开发大型语言模型音乐能力的前训练语料库,包含约5.17M样本和4.16B令牌。数据集涵盖了网络爬取的文集、百科全书、音乐书籍、YouTube音乐字幕、使用abc记谱法的音乐作品、数学内容和代码。

数据集特征

  • 名称: id
    • 数据类型: int64
  • 名称: text
    • 数据类型: string
  • 名称: src
    • 数据类型: string

数据集分割

  • 分割名称: train
    • 字节数: 13588597055
    • 样本数: 5188802

数据集来源

MusicPile 构建于开源数据集和MAP成员手工制作的高质量数据之上。主要来源包括:

数据集 来源 令牌数 样本数 类别 格式
pile 公共数据集 0.83B 18K 通用 文章
Falcon-RefinedWeb 公共数据集 0.80B 101K 通用 文章
Wikipedia 公共数据集 0.39B 588K 通用 文章
OpenChat 公共数据集 62.44M 43K 通用 聊天
LinkSoul 公共数据集 0.6B 1.5M 通用 聊天
GPT4-Alpaca 公共数据集 9.77M 49K 通用 聊天
Dolly 公共数据集 3.12M 14K 通用 聊天
IrishMAN 公共数据集 + 人工编写指令 0.23B 868K 音乐乐谱 聊天
KernScores 公共数据集 + 人工编写指令 2.76M 10K 音乐乐谱 聊天
JSB Chorales 公共数据集 + 人工编写指令 0.44M 349 音乐乐谱 聊天
synthetic music chat 公共数据集 + 人工编写指令 0.54B 50K 音乐乐谱 聊天
music knowledge 使用GPT-4生成 0.22B 255K 音乐口头 聊天
music summary 使用GPT-4生成 0.21B 500K 音乐口头 聊天
GSM8k 公共数据集 1.68M 7K 数学 聊天
math 公共数据集 7.03M 37K 数学 聊天
MathInstruct 公共数据集 55.50M 188K 数学 聊天
Camel-Math 公共数据集 27.76M 50K 数学 聊天
arxiv-math-instruct-50k 公共数据集 9.06M 50K 数学 聊天
Camel-Code 公共数据集 0.13B 366K 代码 聊天
OpenCoder 公共数据集 36.99M 28K 代码 聊天

数据集语言

MusicPile 主要包含英语。

数据集结构

MusicPile 包含三个字段:id, text, 和 src。每个文本的令牌数不超过2048(由LlamaTokenizer计数)。

搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索与生成领域,构建高质量数据集是推动大语言模型具备音乐能力的关键。MusicPile作为首个专为培养大语言模型音乐能力而设计的预训练语料库,其构建过程体现了严谨的数据工程方法。该数据集整合了多样化的公开数据源与人工精心策划的内容,涵盖网络爬取语料、百科全书、音乐书籍、YouTube音乐字幕、abc记谱法乐谱、数学内容及代码等。通过筛选包含音乐术语的通用语料,并融合多轮对话格式的指令数据,同时利用GPT-4生成音乐知识问答与摘要,辅以数学与代码数据以增强符号音乐推理能力,最终形成包含约4.16B词元、5.17M样本的综合性语料库。
特点
MusicPile数据集在音乐人工智能领域展现出鲜明的特色。其内容构成具有显著的多模态与跨学科特征,不仅覆盖音乐乐谱生成与理解任务,还融入了数学推理与编程代码,旨在提升模型对符号音乐的抽象处理能力。数据格式统一为对话结构,模拟人类与助手间的交互,增强了模型在指令遵循与多轮对话中的适应性。地域多样性亦是一大亮点,收录了来自全球不同区域的音乐作品,为模型提供了丰富的文化语境。该数据集以英语为主,确保了语言的一致性,同时通过精心设计的任务框架,支持从和弦、旋律到音乐形式与风格的多样化生成与理解需求。
使用方法
在应用层面,MusicPile为研究人员与开发者提供了便捷的接入途径。用户可通过Hugging Face的datasets库直接加载该数据集,仅需简单调用load_dataset函数即可获取包含id、文本内容及数据来源字段的结构化数据。数据集适用于文本生成任务,尤其专注于音乐能力的培养,可服务于大语言模型的预训练或微调阶段。其设计支持多种下游应用,包括音乐创作辅助、乐谱分析、音乐知识问答及跨模态音乐理解等。通过结合配套的基准测试与微调数据集,用户能够系统评估模型在音乐任务上的表现,并基于开源代码与预训练模型进一步开展创新性研究。
背景与挑战
背景概述
在人工智能与音乐计算交叉领域,大型语言模型在音乐理解与生成方面的能力开发长期面临专业语料匮乏的挑战。为应对这一挑战,MAP研究机构于2024年推出了MusicPile数据集,作为首个专为培养大型语言模型音乐能力而设计的预训练语料库。该数据集汇聚了来自网络爬取文本、音乐百科全书、乐谱数据、数学与编程内容等多源异构数据,总计包含约5.17百万样本与4.16十亿词元,旨在通过融合通用知识与专业音乐符号,系统性地提升模型对音乐内在结构与语义的建模能力,为音乐智能研究奠定了关键的数据基础。
当前挑战
MusicPile数据集致力于解决音乐智能领域内符号音乐理解与生成的复杂挑战,其核心在于如何使语言模型跨越文本与音乐符号的语义鸿沟,实现对和声、旋律、曲式等抽象音乐元素的内在建模。在构建过程中,研究团队面临多重挑战:首先,音乐符号数据在计算音乐社区中极为稀缺,需从有限公开资源中整合多区域乐谱并设计多样化音乐任务;其次,专业音乐知识的自动化标注困难,需依赖GPT-4生成高质量音乐问答与摘要,并确保其逻辑严谨性;此外,数据融合需平衡通用语料与专业内容的比例,以同时维持模型的语言能力与音乐专业性,这一过程涉及复杂的过滤策略与多轮对话格式的统一转换。
常用场景
经典使用场景
在音乐人工智能领域,MusicPile数据集作为首个专为大型语言模型音乐能力预训练设计的语料库,其经典应用场景集中于音乐生成与理解的联合建模。该数据集融合了乐谱符号、音乐知识文本及多模态对话数据,为模型提供了从乐理认知到创造性表达的全方位训练素材。研究者通过微调或预训练基于MusicPile的模型,能够实现音乐动机生成、和声编排、曲式分析等复杂任务,推动符号音乐计算向更高层次的语义理解迈进。
解决学术问题
MusicPile有效应对了音乐计算中长期存在的符号数据稀缺与语义鸿沟问题。传统音乐生成模型往往受限于有限的结构化乐谱数据,难以深入理解音乐背后的文化语境与创作逻辑。该数据集通过整合百科全书、音乐教材、乐谱ABC记谱及GPT-4生成的音乐知识问答,构建了跨越符号表征与自然语言描述的桥梁。这不仅提升了模型对音乐理论概念的把握能力,更为探索音乐创作的可解释性、跨风格迁移等基础研究提供了数据基石。
衍生相关工作
该数据集直接催生了ChatMusician系列模型的开创性研究,其论文系统论证了大型语言模型内蕴音乐智能的可行性。后续研究在此基础上拓展出音乐理论基准测试集MusicTheoryBench,以及专门用于指令微调的MusicPile-sft数据集。这些衍生工作构建了从预训练、微调到评估的完整技术链条,进一步激发了学术界对符号音乐建模、跨模态音乐理解等方向的探索,为音乐人工智能领域的标准化发展奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作