five

MetaScore|音乐生成数据集|元数据数据集

收藏
arXiv2024-10-03 更新2024-10-05 收录
音乐生成
元数据
下载链接:
https://musescore.com/
下载链接
链接失效反馈
资源简介:
MetaScore是由加州大学圣地亚哥分校的研究团队创建的一个大型音乐数据集,包含963,000条音乐乐谱及其丰富的元数据。数据集内容包括音乐的流派、作曲家、复杂度、调号、时间签名以及用户交互统计等。数据集的创建过程包括从MuseScore论坛收集数据、使用机器学习算法填补缺失的流派标签,并利用大型语言模型生成自然语言描述。MetaScore主要应用于可控音乐生成领域,旨在通过文本或标签生成符合特定描述的音乐作品。
提供机构:
加州大学圣地亚哥分校
创建时间:
2024-10-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
MetaScore数据集的构建基于从MuseScore论坛收集的963K个音乐乐谱及其丰富的元数据。这些元数据包括用户注释的自由形式标签、流派、作曲家、复杂性、时间签名、调号以及用户交互统计数据(如浏览量、点赞和评论数)。为了增强数据集,研究团队利用预训练的大型语言模型(LLM)生成伪自然语言描述,填补了缺失的流派元数据,并生成了自然语言标题。这一过程不仅丰富了数据集的内容,还为后续的文本到音乐生成模型提供了高质量的训练数据。
特点
MetaScore数据集的显著特点在于其庞大的规模和丰富的元数据。该数据集包含963K个音乐乐谱,每个乐谱都附有详细的元数据,涵盖了从流派到作曲家的多维度信息。此外,通过LLM生成的伪自然语言描述,使得数据集在多模态学习中表现出色,能够支持自由形式的文本提示,从而实现对乐器、流派、作曲家和复杂性等属性的精确控制。
使用方法
MetaScore数据集主要用于训练和评估文本到音乐生成模型。用户可以通过预训练的LLM模型生成伪自然语言描述,并将其作为输入来训练文本条件音乐生成模型。此外,数据集还支持基于标签的条件音乐生成,用户可以预设流派、作曲家、复杂性和乐器等标签,以生成符合特定条件的音乐作品。通过这些方法,MetaScore数据集为音乐创作和AI辅助音乐生成提供了强大的工具和资源。
背景与挑战
背景概述
近年来,随着机器学习技术的迅猛发展,条件音乐生成领域取得了显著进展,特别是在音频域的可控音乐生成方面。然而,符号音乐生成系统由于缺乏大规模的、带有丰富元数据的公共符号音乐数据集,其发展相对滞后。MetaScore数据集由Duke University、University of California San Diego和University of Michigan的研究团队于近期创建,包含963K个带有丰富元数据的音乐乐谱,这些数据从在线音乐论坛MuseScore收集而来。该数据集的核心研究问题是如何利用自然语言提示生成符号音乐,并通过预训练的大型语言模型(LLM)增强数据集,以支持基于文本的音乐生成模型。MetaScore的推出填补了这一领域的空白,为符号音乐生成提供了新的可能性,并对音乐创作和人工智能的结合产生了深远影响。
当前挑战
MetaScore数据集在构建过程中面临多项挑战。首先,符号音乐生成领域缺乏大规模的、带有丰富元数据的数据集,这限制了相关模型的训练和性能提升。其次,数据集的构建过程中,研究人员需要处理大量来自在线论坛的原始数据,包括提取和标准化关键元数据(如作曲家、流派、复杂度等),以及填补缺失的元数据标签。此外,利用大型语言模型生成伪自然语言描述时,如何确保生成的描述与音乐内容的高度一致性也是一个重要挑战。最后,尽管MetaScore在实验中展示了其优越性,但如何确保生成的音乐不侵犯版权,以及如何进一步提升模型的可控性和生成质量,仍是未来研究的重要方向。
常用场景
经典使用场景
MetaScore数据集在音乐生成领域中被广泛应用于条件音乐生成任务。通过结合丰富的元数据和用户注释标签,MetaScore使得研究人员能够训练出能够根据自由文本描述生成符号音乐的模型。这些模型不仅能够控制音乐的乐器、风格、作曲家和复杂度,还能通过大型语言模型生成的伪自然语言描述来进一步增强生成音乐的可控性和多样性。
解决学术问题
MetaScore数据集解决了符号音乐生成领域中长期存在的数据稀缺问题。通过提供包含963K音乐乐谱及其丰富元数据的大规模数据集,MetaScore为研究人员提供了一个强大的工具,以探索和开发新的音乐生成模型。这不仅推动了条件音乐生成技术的发展,还为多模态学习提供了新的研究方向,特别是在文本与音乐之间的跨模态生成任务中。
衍生相关工作
MetaScore数据集的发布催生了多项相关研究工作,特别是在符号音乐生成和多模态学习领域。例如,基于MetaScore的文本条件音乐生成模型展示了在自由文本输入下生成高质量音乐的能力,而标签条件音乐生成模型则进一步扩展了音乐生成的控制维度。此外,MetaScore还启发了对音乐数据集元数据补全和伪标签生成技术的研究,推动了音乐信息检索和音乐情感分析等领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录