音乐抄袭检测数据集（MPD-Set）

Name: 音乐抄袭检测数据集（MPD-Set）
Creator: 教育部人工智能重点实验室，上海交通大学
Published: 2023-07-02 16:28:07
License: 暂无描述

arXiv2023-07-02 更新2024-06-21 收录

下载链接：

https://github.com/xuan301/BMMDet_MPDSet

下载链接

链接失效反馈

官方服务：

资源简介：

音乐抄袭检测数据集（MPD-Set）是由上海交通大学教育部人工智能重点实验室的研究人员在知名国家级音乐领域专业机构的指导下创建的，旨在解决音乐抄袭检测问题。该数据集包含2000首音乐作品，每对作品之间存在抄袭关系，涵盖了旋律、节奏和音调层面的多种实际抄袭案例。数据集的创建过程涉及从Wikifonia开放源数据集中提取音乐片段，并将其转换为MIDI格式。MPD-Set的应用领域主要集中在音乐版权保护和抄袭检测，通过提供详细的数据支持，帮助识别和量化音乐作品中的抄袭行为。

The Music Plagiarism Detection Dataset (MPD-Set) was developed by researchers from the Key Laboratory of Artificial Intelligence of the Ministry of Education, Shanghai Jiao Tong University, under the guidance of well-known national-level professional music institutions, aiming to address the problem of music plagiarism detection. This dataset includes 2000 musical works, with each pair of works having a plagiarism relationship, covering various actual plagiarism cases at the levels of melody, rhythm and pitch. The dataset creation process involves extracting musical segments from the Wikifonia open-source dataset and converting them into MIDI format. The main application fields of MPD-Set focus on music copyright protection and plagiarism detection, providing detailed data support to help identify and quantify plagiarism in musical works.

提供机构：

教育部人工智能重点实验室，上海交通大学

创建时间：

2021-07-21

搜集汇总

数据集介绍

构建方式

音乐抄袭检测数据集（MPD-Set）是首个公开的大规模音乐抄袭检测数据集，包含2000首音乐作品。该数据集由上海交通大学与国家级音乐专业机构的知名研究人员合作构建，基于Wikifonia开源数据集中的真实人类创作歌曲片段，通过提取音乐片段并转换为MIDI格式，模拟了现实生活中常见的四种抄袭类型：旋律转调、音高偏移、节奏变化和旋律变化。每种抄袭类型各占数据集的25%，确保了数据集能够全面反映现实中的音乐抄袭场景。

特点

MPD-Set的特点在于其精细化的抄袭检测设计，涵盖了旋律、节奏和音调等多个层面的抄袭案例。数据集不仅模拟了常见的抄袭手段，如转调、音高偏移和节奏变化，还引入了更为复杂的旋律变化类型，使用MuseMorphose模型生成变体片段。此外，MPD-Set还包含一个真实案例数据集，用于评估模型在实际场景中的表现，确保了数据集的实用性和广泛适用性。

使用方法

MPD-Set可用于训练和评估音乐抄袭检测算法，特别是针对细粒度抄袭检测的模型。用户可以通过将音乐片段转换为MIDI格式，并使用Bipartite Melody Matching Detector（BMM-Det）等基于图匹配的算法进行检测。该数据集支持多种抄袭类型的检测，用户可以根据需求调整模型参数，并通过实验验证模型在不同抄袭场景下的表现。数据集的开放性使得研究人员能够进一步探索和优化音乐抄袭检测技术。

背景与挑战

背景概述

随着音乐创作的普及和知识产权保护意识的增强，音乐抄袭检测逐渐成为学术界和产业界关注的焦点。传统的音乐抄袭检测方法多为粗粒度，难以应对现实场景中的复杂抄袭行为。为此，上海交通大学人工智能教育部重点实验室的研究团队在知名音乐领域专家的指导下，于2021年创建了音乐抄袭检测数据集（MPD-Set）。该数据集是首个公开的大规模音乐抄袭检测数据集，涵盖了2000首音乐作品，旨在模拟现实生活中的多种抄袭案例，包括旋律、节奏和音调层面的抄袭。MPD-Set的构建不仅填补了该领域的数据空白，还为音乐抄袭检测算法的研究提供了坚实的基础。

当前挑战

MPD-Set的构建面临多重挑战。首先，音乐抄袭检测领域的现有数据集稀缺且不公开，导致研究者难以获取足够的数据进行算法验证。其次，音乐抄袭行为具有多样性和隐蔽性，如转调、音高变化、节奏变化和旋律变化等，这些复杂的抄袭手段使得检测算法的设计变得尤为困难。此外，构建一个能够真实反映现实抄袭场景的数据集需要深入的音乐理论知识和专业的数据处理技术，以确保数据集的多样性和代表性。这些挑战不仅推动了MPD-Set的创建，也为后续的音乐抄袭检测研究提出了更高的要求。

常用场景

经典使用场景

音乐抄袭检测数据集（MPD-Set）的经典使用场景主要集中在音乐版权保护领域，尤其是在检测音乐作品中的细粒度抄袭行为。该数据集通过模拟真实世界中的抄袭案例，涵盖了旋律、节奏和音调等多个层面的抄袭方式，如转调、音高偏移、时长变化和旋律变化等。研究者可以利用MPD-Set训练和评估音乐抄袭检测算法，特别是基于二分图匹配的BMM-Det模型，以识别音乐作品中的局部抄袭片段。

实际应用

MPD-Set在实际应用中具有广泛的潜力，尤其是在音乐版权保护和法律诉讼领域。音乐行业可以通过该数据集训练的算法，快速识别和定位音乐作品中的抄袭片段，从而有效防止版权侵权行为。此外，MPD-Set还可以用于音乐创作过程中的自我审查，帮助音乐人避免无意中的抄袭行为。在法律诉讼中，MPD-Set提供的数据和算法可以作为证据，帮助法官和律师更准确地判断抄袭行为的存在与否。

衍生相关工作

MPD-Set的发布不仅推动了音乐抄袭检测算法的发展，还催生了一系列相关研究工作。例如，基于BMM-Det模型的改进算法不断涌现，进一步提升了细粒度抄袭检测的性能。此外，MPD-Set还激发了其他领域的研究，如音乐生成和音乐风格迁移，研究者开始探索如何利用该数据集进行更复杂的音乐分析和创作。未来，MPD-Set有望成为音乐信息检索和音乐版权保护领域的基准数据集，推动更多创新性研究的开展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集