five

PDMX

收藏
arXiv2024-09-17 更新2024-09-19 收录
下载链接:
https://pnlong.github.io/PDMX.demo/
下载链接
链接失效反馈
官方服务:
资源简介:
PDMX是由加州大学圣地亚哥分校的研究团队创建的一个大规模公共领域MusicXML数据集,包含超过25万份来自MuseScore论坛的版权免费乐谱文件。该数据集不仅包括乐谱本身,还附有丰富的标签和用户交互元数据,有助于高效分析和筛选高质量的用户生成乐谱。PDMX的创建过程涉及从MuseScore平台抓取数据并筛选出公共领域或CC-0许可的乐谱。该数据集主要应用于符号音乐处理和生成领域,旨在解决现有数据集中版权问题和数据质量不足的问题。

PDMX is a large-scale public-domain MusicXML dataset developed by a research team at the University of California, San Diego. It contains over 250,000 copyright-free sheet music files sourced from the MuseScore forums. In addition to the core sheet music content, the dataset also provides rich annotation tags and user interaction metadata, enabling efficient analysis and screening of high-quality user-generated sheet music. The creation of PDMX involves scraping data from the MuseScore platform and filtering out sheet music that is either in the public domain or licensed under CC-0. This dataset is primarily applied in the field of symbolic music processing and generation, aiming to address the copyright issues and insufficient data quality problems in existing datasets.
提供机构:
加州大学圣地亚哥分校
创建时间:
2024-09-17
搜集汇总
数据集介绍
main_image_url
构建方式
PDMX数据集的构建基于从MuseScore平台大规模抓取的MusicXML文件,该平台是一个允许社区成员上传乐谱的在线论坛。研究团队通过筛选具有公共领域标记(如公共领域或CC-0许可证)的乐谱,确保了数据集的版权自由。此外,数据集还包含了丰富的元数据,如标签、描述和流行度信息,这些数据有助于对乐谱进行质量评估和分类。最终,PDMX数据集包含了超过25万份MusicXML文件,成为目前最大的公共领域符号音乐数据集。
特点
PDMX数据集的显著特点在于其规模和版权自由性,使其成为符号音乐处理领域的宝贵资源。数据集不仅包含了大量的MusicXML文件,还附带了详细的元数据,如标签、用户评分和评论,这些信息为数据的质量评估和下游任务提供了有力支持。此外,PDMX数据集支持多轨音乐生成,涵盖了多种音乐风格和流派,为研究者提供了丰富的实验材料。
使用方法
PDMX数据集适用于多种符号音乐处理任务,包括音乐生成、音乐推荐和音乐质量评估等。研究者可以通过分析数据集中的元数据,如用户评分和标签,来筛选高质量的乐谱子集,用于训练和微调生成模型。此外,数据集中的MusicXML文件可以通过扩展的MusPy库(称为MusicRender)进行解析和处理,该库支持将乐谱中的表现指示符(如动态标记和演奏技巧)转化为实际的音乐表现,从而支持更精细的下游建模任务。
背景与挑战
背景概述
PDMX数据集,由加州大学圣地亚哥分校的Phillip Long、Zachary Novack、Taylor Berg-Kirkpatrick和Julian McAuley等人创建,是一个大规模的公共领域MusicXML数据集,专门用于符号音乐处理。该数据集于2025年发布,包含了超过25万份从MuseScore论坛收集的公共领域MusicXML乐谱,是目前已知最大的版权自由符号音乐数据集。PDMX不仅提供了丰富的乐谱数据,还包括了标签和用户交互元数据,使得研究人员能够高效地分析和筛选高质量的用户生成乐谱。该数据集的推出,旨在解决生成AI音乐系统中普遍存在的数据版权和许可问题,为符号音乐生成和处理领域提供了宝贵的资源。
当前挑战
PDMX数据集在构建过程中面临了多个挑战。首先,符号音乐数据集普遍存在版权问题,许多现有数据集未能充分筛选出公共领域的音乐作品,导致数据集的使用受到限制。其次,现有的符号音乐数据集多以MIDI格式为主,而MIDI格式在表示符号音乐时存在信息缺失,如演奏指示、时间定位文本和段落边界等,这些信息在MusicXML格式中更为丰富。此外,数据集的构建还需要解决乐谱的去重问题,由于同一作品可能有多种不同的标题和安排,传统的文本匹配技术难以有效识别重复乐谱。最后,数据集的质量评估也是一个挑战,由于MuseScore平台的众包性质,乐谱的质量参差不齐,需要通过用户评分等手段进行筛选和评估。
常用场景
经典使用场景
PDMX数据集在符号音乐处理领域中被广泛用于多轨音乐生成任务。通过利用数据集中丰富的元数据,研究者能够高效地筛选出高质量的用户生成乐谱,从而训练和微调生成模型。这种基于元数据的数据筛选方法显著提升了下游模型的性能,特别是在无条件多轨音乐生成任务中,PDMX展示了其强大的数据质量和多样性。
实际应用
PDMX数据集在实际应用中具有广泛潜力,特别是在音乐创作和教育领域。音乐制作人可以利用PDMX中的高质量乐谱进行创作灵感激发和风格探索,而音乐教育者则可以借助数据集中的丰富资源进行教学和练习。此外,PDMX还支持音乐推荐系统和偏好建模,为个性化音乐体验提供了数据基础。
衍生相关工作
PDMX数据集的发布催生了多项相关研究工作,特别是在符号音乐生成和音乐信息检索领域。例如,基于PDMX的元数据,研究者开发了多轨音乐生成模型,显著提升了生成音乐的和谐性和节奏感。此外,PDMX还启发了对音乐版权和数据质量评估方法的研究,推动了符号音乐处理技术的整体进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作