five

MetaScore|音乐生成数据集|元数据数据集

收藏
arXiv2024-10-03 更新2024-10-05 收录
音乐生成
元数据
下载链接:
https://musescore.com/
下载链接
链接失效反馈
资源简介:
MetaScore是由加州大学圣地亚哥分校的研究团队创建的一个大型音乐数据集,包含963,000条音乐乐谱及其丰富的元数据。数据集内容包括音乐的流派、作曲家、复杂度、调号、时间签名以及用户交互统计等。数据集的创建过程包括从MuseScore论坛收集数据、使用机器学习算法填补缺失的流派标签,并利用大型语言模型生成自然语言描述。MetaScore主要应用于可控音乐生成领域,旨在通过文本或标签生成符合特定描述的音乐作品。
提供机构:
加州大学圣地亚哥分校
创建时间:
2024-10-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
MetaScore数据集的构建基于从MuseScore论坛收集的963K个音乐乐谱及其丰富的元数据。这些元数据包括用户注释的自由形式标签、流派、作曲家、复杂性、时间签名、调号以及用户交互统计数据(如浏览量、点赞和评论数)。为了增强数据集,研究团队利用预训练的大型语言模型(LLM)生成伪自然语言描述,填补了缺失的流派元数据,并生成了自然语言标题。这一过程不仅丰富了数据集的内容,还为后续的文本到音乐生成模型提供了高质量的训练数据。
特点
MetaScore数据集的显著特点在于其庞大的规模和丰富的元数据。该数据集包含963K个音乐乐谱,每个乐谱都附有详细的元数据,涵盖了从流派到作曲家的多维度信息。此外,通过LLM生成的伪自然语言描述,使得数据集在多模态学习中表现出色,能够支持自由形式的文本提示,从而实现对乐器、流派、作曲家和复杂性等属性的精确控制。
使用方法
MetaScore数据集主要用于训练和评估文本到音乐生成模型。用户可以通过预训练的LLM模型生成伪自然语言描述,并将其作为输入来训练文本条件音乐生成模型。此外,数据集还支持基于标签的条件音乐生成,用户可以预设流派、作曲家、复杂性和乐器等标签,以生成符合特定条件的音乐作品。通过这些方法,MetaScore数据集为音乐创作和AI辅助音乐生成提供了强大的工具和资源。
背景与挑战
背景概述
近年来,随着机器学习技术的迅猛发展,条件音乐生成领域取得了显著进展,特别是在音频域的可控音乐生成方面。然而,符号音乐生成系统由于缺乏大规模的、带有丰富元数据的公共符号音乐数据集,其发展相对滞后。MetaScore数据集由Duke University、University of California San Diego和University of Michigan的研究团队于近期创建,包含963K个带有丰富元数据的音乐乐谱,这些数据从在线音乐论坛MuseScore收集而来。该数据集的核心研究问题是如何利用自然语言提示生成符号音乐,并通过预训练的大型语言模型(LLM)增强数据集,以支持基于文本的音乐生成模型。MetaScore的推出填补了这一领域的空白,为符号音乐生成提供了新的可能性,并对音乐创作和人工智能的结合产生了深远影响。
当前挑战
MetaScore数据集在构建过程中面临多项挑战。首先,符号音乐生成领域缺乏大规模的、带有丰富元数据的数据集,这限制了相关模型的训练和性能提升。其次,数据集的构建过程中,研究人员需要处理大量来自在线论坛的原始数据,包括提取和标准化关键元数据(如作曲家、流派、复杂度等),以及填补缺失的元数据标签。此外,利用大型语言模型生成伪自然语言描述时,如何确保生成的描述与音乐内容的高度一致性也是一个重要挑战。最后,尽管MetaScore在实验中展示了其优越性,但如何确保生成的音乐不侵犯版权,以及如何进一步提升模型的可控性和生成质量,仍是未来研究的重要方向。
常用场景
经典使用场景
MetaScore数据集在音乐生成领域中被广泛应用于条件音乐生成任务。通过结合丰富的元数据和用户注释标签,MetaScore使得研究人员能够训练出能够根据自由文本描述生成符号音乐的模型。这些模型不仅能够控制音乐的乐器、风格、作曲家和复杂度,还能通过大型语言模型生成的伪自然语言描述来进一步增强生成音乐的可控性和多样性。
解决学术问题
MetaScore数据集解决了符号音乐生成领域中长期存在的数据稀缺问题。通过提供包含963K音乐乐谱及其丰富元数据的大规模数据集,MetaScore为研究人员提供了一个强大的工具,以探索和开发新的音乐生成模型。这不仅推动了条件音乐生成技术的发展,还为多模态学习提供了新的研究方向,特别是在文本与音乐之间的跨模态生成任务中。
衍生相关工作
MetaScore数据集的发布催生了多项相关研究工作,特别是在符号音乐生成和多模态学习领域。例如,基于MetaScore的文本条件音乐生成模型展示了在自由文本输入下生成高质量音乐的能力,而标签条件音乐生成模型则进一步扩展了音乐生成的控制维度。此外,MetaScore还启发了对音乐数据集元数据补全和伪标签生成技术的研究,推动了音乐信息检索和音乐情感分析等领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。

huggingface 收录

mmlu_eval

该数据集用于评估和比较不同模型的推理能力。它包含多个特征,如问题、主题、选项、答案、输入、基线模型输出、混合推理模型输出和评估结果。数据集分为一个验证集,包含1531个样本。数据集的大小为10295402字节,下载大小为4908248字节。

huggingface 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录