m-a-p/MusicPile-sft|音乐数据集数据集|AI训练数据集

hugging_face2024-03-03 更新2024-03-04 收录

音乐数据集

AI训练

下载链接：

https://hf-mirror.com/datasets/m-a-p/MusicPile-sft

下载链接

链接失效反馈

资源简介：

--- dataset_info: features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string - name: src dtype: string - name: id dtype: int64 splits: - name: train num_bytes: 1926209131 num_examples: 1139473 download_size: 985473122 dataset_size: 1926209131 configs: - config_name: default data_files: - split: train path: data/train-* --- [**🌐 DemoPage**](https://ezmonyi.github.io/ChatMusician/) | [**🤗 Pretrain Dataset**](https://huggingface.co/datasets/m-a-p/MusicPile) | [**🤗 Benchmark**](https://huggingface.co/datasets/m-a-p/MusicTheoryBench) | [**📖 arXiv**](http://arxiv.org/abs/2402.16153) | [💻 **Code**](https://github.com/hf-lin/ChatMusician) | [**🤖 Chat Model**](https://huggingface.co/m-a-p/ChatMusician) | [**🤖 Base Model**](https://huggingface.co/m-a-p/ChatMusician-Base) # Dataset Card for MusicPile-sft *MusicPile-sft* is a subset of [MusicPile](https://huggingface.co/datasets/m-a-p/MusicPile). It contains **1.14M** samples with a ratio of music verbal to music score(abc notation) of 2:1. Here is the overview: | Datasets | Sourced from | # Samples | Category | Format | | --- | --- | --- | --- | --- | | [IrishMAN](https://huggingface.co/datasets/sander-wood/irishman) | public dataset + Human-written Instructions | 340K | music score | chat | | [KernScores](http://kern.ccarh.org) | public dataset + Human-written Instructions | 10K | music score | chat | | [JSB Chorales](https://github.com/sander-wood/deepchoir) | public dataset + Human-written Instructions | 33.5k | music score | chat | | music knowledge** | Generated with GPT-4 | 255K | music verbal | chat | | music summary** | Generated with GPT-4 | 500K | music verbal | chat | Note: The data of JSB Chorales is repeated 100 times.(Because there is so little data on compositions in the Bach style.) You can easily load it: ```python from datasets import load_dataset ds = load_dataset("m-a-p/MusicPile-sft") ``` ## Languages *MusicPile-sft* primarily contains English. ## Dataset Structure *MusicPile-sft* has 5 fields `id`,`src`, `input`, `instruction` and `output`. ## Citation If you find our work helpful, feel free to give us a cite. ``` @misc{yuan2024chatmusician, title={ChatMusician: Understanding and Generating Music Intrinsically with LLM}, author={Ruibin Yuan and Hanfeng Lin and Yi Wang and Zeyue Tian and Shangda Wu and Tianhao Shen and Ge Zhang and Yuhang Wu and Cong Liu and Ziya Zhou and Ziyang Ma and Liumeng Xue and Ziyu Wang and Qin Liu and Tianyu Zheng and Yizhi Li and Yinghao Ma and Yiming Liang and Xiaowei Chi and Ruibo Liu and Zili Wang and Pengfei Li and Jingcheng Wu and Chenghua Lin and Qifeng Liu and Tao Jiang and Wenhao Huang and Wenhu Chen and Emmanouil Benetos and Jie Fu and Gus Xia and Roger Dannenberg and Wei Xue and Shiyin Kang and Yike Guo}, year={2024}, eprint={2402.16153}, archivePrefix={arXiv}, primaryClass={cs.SD} } ``` ## Dataset Card Contact Authors of ChatMusician.

提供机构：

m-a-p

原始信息汇总

数据集概述

名称: MusicPile-sft

来源: 是MusicPile的一个子集，包含1.14M样本，音乐语言与音乐乐谱（abc notation）的比例为2:1。

数据源:

IrishMAN: 340K样本，音乐乐谱，来源为公共数据集+人类编写的指令。
KernScores: 10K样本，音乐乐谱，来源为公共数据集+人类编写的指令。
JSB Chorales: 33.5k样本，音乐乐谱，来源为公共数据集+人类编写的指令，数据重复100次。
音乐知识: 255K样本，音乐语言，使用GPT-4生成。
音乐摘要: 500K样本，音乐语言，使用GPT-4生成。

语言: 主要为英语。

数据结构: 包含5个字段：id, src, input, instruction, output。

数据集大小:

下载大小: 985473122字节
数据集大小: 1926209131字节
训练集: 1139473样本，1926209131字节

加载示例: python from datasets import load_dataset ds = load_dataset("m-a-p/MusicPile-sft")

引用:

@misc{yuan2024chatmusician, title={ChatMusician: Understanding and Generating Music Intrinsically with LLM}, author={Ruibin Yuan and Hanfeng Lin and Yi Wang and Zeyue Tian and Shangda Wu and Tianhao Shen and Ge Zhang and Yuhang Wu and Cong Liu and Ziya Zhou and Ziyang Ma and Liumeng Xue and Ziyu Wang and Qin Liu and Tianyu Zheng and Yizhi Li and Yinghao Ma and Yiming Liang and Xiaowei Chi and Ruibo Liu and Zili Wang and Pengfei Li and Jingcheng Wu and Chenghua Lin and Qifeng Liu and Tao Jiang and Wenhao Huang and Wenhu Chen and Emmanouil Benetos and Jie Fu and Gus Xia and Roger Dannenberg and Wei Xue and Shiyin Kang and Yike Guo}, year={2024}, eprint={2402.16153}, archivePrefix={arXiv}, primaryClass={cs.SD} }

AI搜集汇总

数据集介绍

构建方式

MusicPile-sft数据集是从MusicPile数据集中精选出的一个子集，包含了113万条样本，其中音乐文本与乐谱（abc记谱法）的比例为2:1。数据来源多样，包括公开数据集如IrishMAN、KernScores和JSB Chorales，以及通过GPT-4生成的音乐知识和音乐摘要。每条数据均经过人工编写的指令处理，确保了数据的质量和多样性。

使用方法

使用MusicPile-sft数据集时，可以通过Hugging Face的datasets库轻松加载。用户只需调用load_dataset函数并指定数据集名称即可获取数据。加载后的数据集可以直接用于训练和评估音乐相关的机器学习模型，如音乐生成模型或音乐理解模型。此外，数据集的结构清晰，便于用户根据需要进行进一步的处理和分析。

背景与挑战

背景概述

MusicPile-sft数据集是MusicPile的一个子集，专注于音乐领域的指令微调任务。该数据集由m-a-p团队于2024年发布，旨在通过结合音乐乐谱（abc notation）与音乐语言描述，推动音乐生成与理解的研究。数据集包含113万条样本，涵盖了从公开数据集（如IrishMAN、KernScores、JSB Chorales）到基于GPT-4生成的音乐知识总结等多源数据。其核心研究问题在于如何利用大规模语言模型（LLM）实现音乐的内在理解与生成，为音乐信息检索、自动作曲等领域提供了重要的数据支持。

当前挑战

MusicPile-sft数据集在构建与应用中面临多重挑战。首先，音乐数据的多模态特性（如乐谱与语言描述的融合）要求数据集在格式与语义上保持高度一致性，这对数据清洗与标注提出了极高要求。其次，音乐领域的专业性使得数据生成与验证过程复杂，尤其是基于GPT-4生成的数据可能存在语义偏差或逻辑错误。此外，数据集中部分来源（如JSB Chorales）样本量较少，需通过重复扩充，可能影响模型的泛化能力。最后，如何在大规模语言模型中有效利用音乐数据，平衡音乐生成的质量与多样性，仍是亟待解决的技术难题。

常用场景

经典使用场景

MusicPile-sft数据集在音乐信息检索和生成领域具有广泛的应用。其经典使用场景包括音乐理论的教学与研究、音乐生成模型的训练与评估，以及音乐信息检索系统的开发。通过结合音乐乐谱（abc notation）与音乐语言描述，该数据集为研究人员提供了一个丰富的资源，用于探索音乐与语言之间的复杂关系。

解决学术问题

MusicPile-sft数据集解决了音乐信息处理中的多个关键学术问题。首先，它通过提供大量音乐乐谱与语言描述的配对数据，支持了音乐生成模型的训练，使得模型能够更好地理解音乐结构与语义。其次，该数据集为音乐信息检索系统提供了高质量的标注数据，有助于提升检索精度与效率。此外，它还推动了音乐理论研究的深入，为音乐风格分析与生成提供了新的视角。

实际应用

在实际应用中，MusicPile-sft数据集被广泛用于开发智能音乐生成工具和音乐教育平台。例如，基于该数据集训练的模型可以自动生成符合特定风格的音乐作品，或为音乐学习者提供个性化的乐理分析与指导。此外，该数据集还被用于构建音乐推荐系统，通过分析用户的音乐偏好，提供精准的音乐推荐服务。

数据集最近研究

最新研究方向

在音乐信息检索与生成领域，MusicPile-sft数据集的最新研究方向聚焦于利用大规模语言模型（LLMs）进行音乐理解与生成。该数据集通过结合音乐乐谱（如abc notation）与音乐文本描述，为模型提供了丰富的多模态训练数据。当前研究热点包括基于LLMs的音乐创作辅助系统、音乐风格迁移以及音乐情感分析。这些研究不仅推动了音乐生成技术的进步，还为音乐教育、创作工具的开发提供了新的可能性。此外，MusicPile-sft的公开与ChatMusician模型的发布，标志着音乐与人工智能交叉领域的重大突破，为未来的音乐智能化应用奠定了坚实基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集，旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本，涵盖4个类别和10个子类别的安全问题，特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据，经过数据清洗和去重处理，确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估，旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息，涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录