five

Similar Music Pair (SMP)

收藏
arXiv2025-09-10 更新2025-09-12 收录
下载链接:
https://github.com/Mippia/smp-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SMP数据集是一个全面的包含原创音乐和对比音乐片段的数据集,用于检测音乐抄袭。该数据集包含70对原始和对比音乐作品,每对作品都包含相关的元数据和相似部分开始的时间戳。数据集涵盖了广泛的音乐类型、发行时期和相似类型,包括已知的抄袭案例、法律争议作品、承认有影响的音乐作品,甚至一些偶然相似的配对。

The SMP Dataset is a comprehensive resource encompassing original music and comparative music segments, tailored for music plagiarism detection. It includes 70 pairs of original and comparative musical works, with each pair containing relevant metadata and timestamps marking the start of their similar segments. The dataset covers a broad spectrum of music genres, release eras, and similarity categories, including documented plagiarism cases, legally contested works, music works recognized as having exerted influence, and even some coincidentally similar pairings.
提供机构:
Mippia Inc.
创建时间:
2025-09-10
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索技术不断发展的背景下,SMP数据集的构建采用了多阶段结构化流程。研究团队首先对原始音频进行预处理,包括音源分离、节拍跟踪和和弦识别等步骤,获取必要的音乐元数据。随后通过音乐结构分析和自相似性聚类算法,将音频划分为具有音乐意义的片段,并对每个片段进行量化处理,提取旋律、和弦、乐器等特征信息。最终基于真实音乐抄袭案例,精选了70对具有相似关系的音乐作品对,并标注了相似片段的精确时间戳。
特点
该数据集最显著的特点是涵盖真实世界音乐抄袭案例的多样性。它不仅包含法律争议作品和公认的改编作品,还纳入了不同音乐流派、发行时期和相似类型的代表性样本。每个音乐对都提供了精确到秒的相似片段时间戳,支持细粒度的片段级分析。数据集还配备了丰富的元数据,包括音乐结构信息、节奏特征和和弦进行等,为多维度音乐相似性研究提供了坚实基础。这种设计使得数据集能够有效反映现实音乐版权纠纷中的复杂场景。
使用方法
研究人员在使用该数据集时,首先需要加载音频文件和对应的元数据标注。通过音乐片段转录系统将原始音频转换为结构化的音乐表征,提取每个片段的旋律、节奏、和弦等特征。随后采用多维度相似度计算模型,综合考量模式相似性、音乐复杂性、节奏相关性和和弦相似性等指标。在评估阶段,既可以在片段级别进行精确匹配检测,也可以在歌曲级别通过聚合片段相似度来进行整体抄袭判断。数据集支持检索式评估方法,包括Top-K准确率和平均排名等指标,为音乐抄袭检测算法提供全面验证框架。
背景与挑战
背景概述
音乐信息检索技术的持续进步推动了音乐创作与传播的多样化,在此背景下,音乐知识产权保护需求日益凸显。2025年,Mippia Inc的研究团队Seonghyeon Go等人于亚太信号与信息处理协会年度峰会发布了Similar Music Pair(SMP)数据集,专注于解决音乐抄袭检测这一核心研究问题。该数据集通过结合多模态音乐特征分析与片段级转录技术,为真实场景中的音乐相似性研究提供了重要基准,对音乐版权保护与计算音乐学领域具有显著影响力。
当前挑战
SMP数据集致力于解决音乐抄袭检测中片段级相似性判定的核心挑战,包括跨格式音频转录的精度问题、短暂抄袭片段的定位难题,以及旋律、和弦、节奏等多特征融合的复杂性。构建过程中面临真实案例数据稀缺性、音乐结构分析的异构性,以及多源MIR技术整合带来的系统稳定性问题,需通过量化音乐语义单元与设计鲁棒性相似度指标予以克服。
常用场景
经典使用场景
在音乐信息检索领域,Similar Music Pair数据集被广泛应用于音乐抄袭检测研究。该数据集通过提供真实案例中的音乐片段对及其时间戳元数据,支持研究者开发基于音频转录和特征比对的算法模型。其典型使用场景包括构建端到端的音乐相似性分析系统,其中系统首先将原始音频转换为结构化音乐表示,随后在多维度特征空间中进行细粒度匹配,从而识别潜在抄袭段落。
实际应用
在实际应用层面,该数据集为音乐产业版权监测提供了技术支撑。律师事务所和音乐平台可利用基于该数据集训练的模型,对海量音频内容进行自动化侵权筛查,精准定位涉嫌抄袭的特定段落(如副歌旋律或节奏型)。此外,该系统还能为音乐创作教育提供相似性警示,帮助创作者规避无意识侵权风险。
衍生相关工作
该数据集催生了多项重要衍生研究,包括基于Siamese网络的音乐嵌入表示学习(如MERT和Music2Vec的应用)、结合音乐结构分析的层次化分割算法,以及融合和弦功能与节奏特征的多模态相似度度量框架。这些工作进一步推动了Cover Song Identification与Plagiarism Detection任务的融合,为端到端的音乐知识产权保护系统奠定理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作