m-a-p/MusicPile-sft

Name: m-a-p/MusicPile-sft
Creator: m-a-p
Published: 2024-03-03 11:05:24
License: 暂无描述

Hugging Face2024-03-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/m-a-p/MusicPile-sft

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string - name: src dtype: string - name: id dtype: int64 splits: - name: train num_bytes: 1926209131 num_examples: 1139473 download_size: 985473122 dataset_size: 1926209131 configs: - config_name: default data_files: - split: train path: data/train-* --- [**🌐 DemoPage**](https://ezmonyi.github.io/ChatMusician/) | [**🤗 Pretrain Dataset**](https://huggingface.co/datasets/m-a-p/MusicPile) | [**🤗 Benchmark**](https://huggingface.co/datasets/m-a-p/MusicTheoryBench) | [**📖 arXiv**](http://arxiv.org/abs/2402.16153) | [💻 **Code**](https://github.com/hf-lin/ChatMusician) | [**🤖 Chat Model**](https://huggingface.co/m-a-p/ChatMusician) | [**🤖 Base Model**](https://huggingface.co/m-a-p/ChatMusician-Base) # Dataset Card for MusicPile-sft *MusicPile-sft* is a subset of [MusicPile](https://huggingface.co/datasets/m-a-p/MusicPile). It contains **1.14M** samples with a ratio of music verbal to music score(abc notation) of 2:1. Here is the overview: | Datasets | Sourced from | # Samples | Category | Format | | --- | --- | --- | --- | --- | | [IrishMAN](https://huggingface.co/datasets/sander-wood/irishman) | public dataset + Human-written Instructions | 340K | music score | chat | | [KernScores](http://kern.ccarh.org) | public dataset + Human-written Instructions | 10K | music score | chat | | [JSB Chorales](https://github.com/sander-wood/deepchoir) | public dataset + Human-written Instructions | 33.5k | music score | chat | | music knowledge** | Generated with GPT-4 | 255K | music verbal | chat | | music summary** | Generated with GPT-4 | 500K | music verbal | chat | Note: The data of JSB Chorales is repeated 100 times.(Because there is so little data on compositions in the Bach style.) You can easily load it: ```python from datasets import load_dataset ds = load_dataset("m-a-p/MusicPile-sft") ``` ## Languages *MusicPile-sft* primarily contains English. ## Dataset Structure *MusicPile-sft* has 5 fields `id`,`src`, `input`, `instruction` and `output`. ## Citation If you find our work helpful, feel free to give us a cite. ``` @misc{yuan2024chatmusician, title={ChatMusician: Understanding and Generating Music Intrinsically with LLM}, author={Ruibin Yuan and Hanfeng Lin and Yi Wang and Zeyue Tian and Shangda Wu and Tianhao Shen and Ge Zhang and Yuhang Wu and Cong Liu and Ziya Zhou and Ziyang Ma and Liumeng Xue and Ziyu Wang and Qin Liu and Tianyu Zheng and Yizhi Li and Yinghao Ma and Yiming Liang and Xiaowei Chi and Ruibo Liu and Zili Wang and Pengfei Li and Jingcheng Wu and Chenghua Lin and Qifeng Liu and Tao Jiang and Wenhao Huang and Wenhu Chen and Emmanouil Benetos and Jie Fu and Gus Xia and Roger Dannenberg and Wei Xue and Shiyin Kang and Yike Guo}, year={2024}, eprint={2402.16153}, archivePrefix={arXiv}, primaryClass={cs.SD} } ``` ## Dataset Card Contact Authors of ChatMusician.

--- 数据集信息：特征： - 名称：instruction（指令），数据类型：字符串 - 名称：input（输入），数据类型：字符串 - 名称：output（输出），数据类型：字符串 - 名称：src（数据来源），数据类型：字符串 - 名称：id（样本编号），数据类型：64位整数划分： - 名称：train（训练集），字节数：1926209131，样本数：1139473 下载大小：985473122 数据集总大小：1926209131 配置： - 配置名称：default（默认配置）数据文件： - 划分：train（训练集）路径：data/train-* --- [**🌐 演示页面**](https://ezmonyi.github.io/ChatMusician/) | [**🤗 预训练数据集**](https://huggingface.co/datasets/m-a-p/MusicPile) | [**🤗 基准测试集**](https://huggingface.co/datasets/m-a-p/MusicTheoryBench) | [**📖 arXiv论文**](http://arxiv.org/abs/2402.16153) | [**💻 代码仓库**](https://github.com/hf-lin/ChatMusician) | [**🤖 对话模型**](https://huggingface.co/m-a-p/ChatMusician) | [**🤖 基础模型**](https://huggingface.co/m-a-p/ChatMusician-Base) # MusicPile-sft 数据集卡片 *MusicPile-sft*是[MusicPile](https://huggingface.co/datasets/m-a-p/MusicPile)的一个子集。该数据集包含**114万**个样本，音乐文本与音乐乐谱（ABC记谱法 (abc notation)）的比例为2:1。以下是数据集概览： | 数据集名称 | 数据来源 | 样本数量 | 类别 | 格式 | | --- | --- | --- | --- | --- | | [IrishMAN](https://huggingface.co/datasets/sander-wood/irishman) | 公开数据集 + 人工编写指令 | 34万 | 音乐乐谱 | 对话格式 | | [KernScores](http://kern.ccarh.org) | 公开数据集 + 人工编写指令 | 1万 | 音乐乐谱 | 对话格式 | | [JSB Chorales](https://github.com/sander-wood/deepchoir) | 公开数据集 + 人工编写指令 | 3.35万 | 音乐乐谱 | 对话格式 | | 音乐知识 | 由GPT-4生成 | 25.5万 | 音乐文本 | 对话格式 | | 音乐摘要 | 由GPT-4生成 | 50万 | 音乐文本 | 对话格式 | 注：JSB Chorales的数据被重复了100次（因巴赫风格作品的公开数据集样本量极少）。你可以通过以下代码轻松加载该数据集： python from datasets import load_dataset ds = load_dataset("m-a-p/MusicPile-sft") ## 语言说明 *MusicPile-sft*主要包含英文文本。 ## 数据集结构 *MusicPile-sft*包含5个字段：`id`（样本编号）、`src`（数据来源）、`input`（输入）、`instruction`（指令）以及`output`（输出）。 ## 引用如果您的工作用到了该数据集，请引用我们的论文： @misc{yuan2024chatmusician, title={ChatMusician: Understanding and Generating Music Intrinsically with 大语言模型（LLM）}, author={Ruibin Yuan and Hanfeng Lin and Yi Wang and Zeyue Tian and Shangda Wu and Tianhao Shen and Ge Zhang and Yuhang Wu and Cong Liu and Ziya Zhou and Ziyang Ma and Liumeng Xue and Ziyu Wang and Qin Liu and Tianyu Zheng and Yizhi Li and Yinghao Ma and Yiming Liang and Xiaowei Chi and Ruibo Liu and Zili Wang and Pengfei Li and Jingcheng Wu and Chenghua Lin and Qifeng Liu and Tao Jiang and Wenhao Huang and Wenhu Chen and Emmanouil Benetos and Jie Fu and Gus Xia and Roger Dannenberg and Wei Xue and Shiyin Kang and Yike Guo}, year={2024}, eprint={2402.16153}, archivePrefix={arXiv}, primaryClass={cs.SD} } ## 数据集卡片联系方式 ChatMusician项目作者。

提供机构：

m-a-p

原始信息汇总

数据集概述

名称: MusicPile-sft

来源: 是MusicPile的一个子集，包含1.14M样本，音乐语言与音乐乐谱（abc notation）的比例为2:1。

数据源:

IrishMAN: 340K样本，音乐乐谱，来源为公共数据集+人类编写的指令。
KernScores: 10K样本，音乐乐谱，来源为公共数据集+人类编写的指令。
JSB Chorales: 33.5k样本，音乐乐谱，来源为公共数据集+人类编写的指令，数据重复100次。
音乐知识: 255K样本，音乐语言，使用GPT-4生成。
音乐摘要: 500K样本，音乐语言，使用GPT-4生成。

语言: 主要为英语。

数据结构: 包含5个字段：id, src, input, instruction, output。

数据集大小:

下载大小: 985473122字节
数据集大小: 1926209131字节
训练集: 1139473样本，1926209131字节

加载示例: python from datasets import load_dataset ds = load_dataset("m-a-p/MusicPile-sft")

引用:

@misc{yuan2024chatmusician, title={ChatMusician: Understanding and Generating Music Intrinsically with LLM}, author={Ruibin Yuan and Hanfeng Lin and Yi Wang and Zeyue Tian and Shangda Wu and Tianhao Shen and Ge Zhang and Yuhang Wu and Cong Liu and Ziya Zhou and Ziyang Ma and Liumeng Xue and Ziyu Wang and Qin Liu and Tianyu Zheng and Yizhi Li and Yinghao Ma and Yiming Liang and Xiaowei Chi and Ruibo Liu and Zili Wang and Pengfei Li and Jingcheng Wu and Chenghua Lin and Qifeng Liu and Tao Jiang and Wenhao Huang and Wenhu Chen and Emmanouil Benetos and Jie Fu and Gus Xia and Roger Dannenberg and Wei Xue and Shiyin Kang and Yike Guo}, year={2024}, eprint={2402.16153}, archivePrefix={arXiv}, primaryClass={cs.SD} }

搜集汇总

数据集介绍

构建方式

MusicPile-sft数据集是从MusicPile数据集中精选出的一个子集，包含了113万条样本，其中音乐文本与乐谱（abc记谱法）的比例为2:1。数据来源多样，包括公开数据集如IrishMAN、KernScores和JSB Chorales，以及通过GPT-4生成的音乐知识和音乐摘要。每条数据均经过人工编写的指令处理，确保了数据的质量和多样性。

使用方法

使用MusicPile-sft数据集时，可以通过Hugging Face的datasets库轻松加载。用户只需调用load_dataset函数并指定数据集名称即可获取数据。加载后的数据集可以直接用于训练和评估音乐相关的机器学习模型，如音乐生成模型或音乐理解模型。此外，数据集的结构清晰，便于用户根据需要进行进一步的处理和分析。

背景与挑战

背景概述

MusicPile-sft数据集是MusicPile的一个子集，专注于音乐领域的指令微调任务。该数据集由m-a-p团队于2024年发布，旨在通过结合音乐乐谱（abc notation）与音乐语言描述，推动音乐生成与理解的研究。数据集包含113万条样本，涵盖了从公开数据集（如IrishMAN、KernScores、JSB Chorales）到基于GPT-4生成的音乐知识总结等多源数据。其核心研究问题在于如何利用大规模语言模型（LLM）实现音乐的内在理解与生成，为音乐信息检索、自动作曲等领域提供了重要的数据支持。

当前挑战

MusicPile-sft数据集在构建与应用中面临多重挑战。首先，音乐数据的多模态特性（如乐谱与语言描述的融合）要求数据集在格式与语义上保持高度一致性，这对数据清洗与标注提出了极高要求。其次，音乐领域的专业性使得数据生成与验证过程复杂，尤其是基于GPT-4生成的数据可能存在语义偏差或逻辑错误。此外，数据集中部分来源（如JSB Chorales）样本量较少，需通过重复扩充，可能影响模型的泛化能力。最后，如何在大规模语言模型中有效利用音乐数据，平衡音乐生成的质量与多样性，仍是亟待解决的技术难题。

常用场景

经典使用场景

MusicPile-sft数据集在音乐信息检索和生成领域具有广泛的应用。其经典使用场景包括音乐理论的教学与研究、音乐生成模型的训练与评估，以及音乐信息检索系统的开发。通过结合音乐乐谱（abc notation）与音乐语言描述，该数据集为研究人员提供了一个丰富的资源，用于探索音乐与语言之间的复杂关系。

解决学术问题

MusicPile-sft数据集解决了音乐信息处理中的多个关键学术问题。首先，它通过提供大量音乐乐谱与语言描述的配对数据，支持了音乐生成模型的训练，使得模型能够更好地理解音乐结构与语义。其次，该数据集为音乐信息检索系统提供了高质量的标注数据，有助于提升检索精度与效率。此外，它还推动了音乐理论研究的深入，为音乐风格分析与生成提供了新的视角。

实际应用

在实际应用中，MusicPile-sft数据集被广泛用于开发智能音乐生成工具和音乐教育平台。例如，基于该数据集训练的模型可以自动生成符合特定风格的音乐作品，或为音乐学习者提供个性化的乐理分析与指导。此外，该数据集还被用于构建音乐推荐系统，通过分析用户的音乐偏好，提供精准的音乐推荐服务。

数据集最近研究