Remix-Proof Retrieval

github2025-05-08 更新2025-05-09 收录

下载链接：

https://github.com/ml-ryanlee/fma-retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

为了支持我们的版权侵权检测方法，我们开发了一个专门用于基于检索的匹配的结构化数据集。数据集来源于Hugging Face上的`benjamin-paine/free-music-archive-small`集合，共包含7,916个音频轨道。每个源歌曲（我们视为受版权保护的歌曲）的持续时间约为30秒，并均匀分布在8种流派中，确保音乐风格的多样性。为了模拟真实的版权侵权场景，我们从每个轨道中随机提取5秒的片段作为查询。这种方法反映了现实世界中可能只有音频片段可用于比较的情况。为了测试歌曲识别对抗规避策略的能力，我们进一步增强了这些五秒片段作为受版权保护歌曲的伪装副本。

To support our copyright infringement detection method, we developed a structured dataset specifically designed for retrieval-based matching. The dataset is sourced from the `benjamin-paine/free-music-archive-small` collection on Hugging Face, and it contains a total of 7,916 audio tracks. Each source song (which we treat as copyrighted work) has a duration of approximately 30 seconds, and they are evenly distributed across 8 genres to ensure diversity in musical styles. To simulate real-world copyright infringement scenarios, we randomly extracted 5-second clips from each track as queries. This approach reflects the real-world situation where only audio clips may be available for comparison. To test the capability of song recognition against adversarial evasion strategies, we further enhanced these 5-second clips to act as disguised copies of the copyrighted songs.

创建时间：

2025-04-09

原始信息汇总

数据集概述

基本信息

数据集名称: Remix-Proof Retrieval
用途: 检测数字音乐中的版权侵权行为，支持音乐信息检索（MIR）任务
数据集地址: HuggingFace

数据来源

原始数据集: benjamin-paine/free-music-archive-small（来自Hugging Face）
音频数量: 7,916条音轨
音频时长: 每条音轨约30秒
音乐风格: 均匀分布在8种不同流派中

数据构造

查询片段: 从每条音轨中随机提取5秒片段作为查询
模拟侵权场景: 对5秒片段进行多种音频增强处理，生成伪装副本

关键特性

针对版权侵权检测的鲁棒音频编码
可抵抗常见音频扰动的微调模型
音乐信息检索评估框架
对抗性增强的基准测试
对比学习技术实现

贡献者

Abhir Karande (akarande@usc.edu)
Ayush Goyal (ayushgoy@usc.edu)
Harrison Pearl (hpearl@usc.edu)
Matthew Hong (hongmm@usc.edu)
Ryan Lee (ryantlee@usc.edu)
Spencer Cobb (srcobb@usc.edu)
Yi-Chieh Chiu (ychiu443@usc.edu)

引用信息

@misc{lee2025remixproof, title={Remix-Proof Retrieval: Robust Audio Encoders for Detecting Copyright Infringement}, author={Lee, Ryan* and Chiu, Yi-Chieh* and Karande, Abhir* and Goyal, Ayush and Pearl, Harrison and Hong, Matthew and Cobb, Spencer}, year={2025}, note={*Equal contribution}, publisher={GitHub}, howpublished={url{https://github.com/username/remix-proof-retrieval}} }

搜集汇总

数据集介绍

构建方式

在数字音乐版权保护领域，Remix-Proof Retrieval数据集通过精心设计的构建流程实现了对侵权内容的精准识别。该数据集基于Hugging Face平台上的`benjamin-paine/free-music-archive-small`音乐库，精选了涵盖8种流派的7,916条30秒音频作为版权样本。为模拟现实侵权场景，研究者从每首曲目中随机截取5秒片段作为查询样本，并施加音高偏移、背景噪声等12种音频扰动生成对抗样本，构建了具有挑战性的跨模态检索基准。

特点

该数据集在音乐信息检索领域展现出显著的技术特性。其核心价值在于采用对比学习框架微调的CLAP和Music2Latent音频编码器，能够生成抗干扰的音乐嵌入表示。特别值得注意的是，数据集包含音色均衡化、动态范围压缩等专业级音频处理样本，使模型在应对混音、重制等复杂侵权形式时保持90%以上的检索准确率。标准化评估体系支持对时域扰动和频域变形的双重鲁棒性测试，为数字版权保护提供了可靠的基准平台。

使用方法

研究者可通过HuggingFace平台直接加载该数据集进行版权检测算法的开发与验证。典型工作流程包含三个关键阶段：首先利用预处理的30秒参考曲目构建音乐指纹数据库，随后将待检的5秒查询片段输入经SimCLR优化的音频编码器生成特征向量，最后通过余弦相似度计算实现跨模态匹配。数据集已内置音高偏移±5%、信噪比20dB等8种对抗测试集，支持端到端的模型鲁棒性评估。为保障研究可复现性，建议使用官方提供的Music2Latent框架作为基准模型。

背景与挑战

背景概述

Remix-Proof Retrieval数据集由南加州大学的研究团队于2025年创建，旨在解决数字音乐版权侵权检测中的核心问题。随着数字音乐平台的快速发展，传统的基于快速傅里叶变换（FFT）的方法在应对音频扰动和多样化表示时表现不佳，导致侵权检测的准确率下降。该数据集基于Hugging Face的`benjamin-paine/free-music-archive-small`音频集合构建，包含7,916条30秒的音频片段，涵盖8种音乐风格，并模拟了现实中的侵权场景，通过提取5秒片段作为查询数据。研究团队采用对比学习技术（如SimCLR）微调了CLAP和Music2Latent等音频编码器，显著提升了模型在噪声或失真条件下的检索性能，为音乐信息检索（MIR）领域提供了重要的基准工具。

当前挑战

Remix-Proof Retrieval数据集面临的挑战主要集中在两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，音频版权侵权检测需应对多种扰动（如音高偏移、背景噪声和均衡化处理），这些扰动使得音频特征提取和匹配变得极为困难，传统方法难以稳定生成嵌入表示。数据构建过程中，研究团队需模拟真实的侵权场景，通过从完整音频中随机提取5秒片段并施加多种增强操作，这不仅增加了数据标注的复杂性，还要求模型在极短的音频片段中保持高精度检索能力。此外，数据集的多样性（涵盖8种音乐风格）虽提升了泛化性，但也对模型的跨风格鲁棒性提出了更高要求。

常用场景

经典使用场景

在数字音乐版权保护领域，Remix-Proof Retrieval数据集通过模拟现实中的音频篡改场景，为音乐信息检索（MIR）系统提供了标准化的评估基准。该数据集精心构建了包含7,916条跨流派音轨的检索任务，其中每首原创作品均被截取为5秒片段并施加音高偏移、背景噪声等对抗性增强，完美复现了流媒体平台常见的侵权检测挑战。研究人员可基于此验证音频编码器在失真条件下的鲁棒性，尤其适合评估对比学习框架对声学特征扰动的抵抗能力。

衍生相关工作

基于该数据集的开创性工作催生了Music2Latent等新型音频编码架构的诞生，相关论文被ICASSP等顶级会议收录。在跨模态检索方向，研究者将其与CLAP模型结合，实现了音乐-文本的联合嵌入空间构建。后续研究进一步扩展了数据集的对抗样本库，新增了AI变声、风格迁移等21种攻击方式，形成了音乐版权检测领域的标准压力测试套件。这些衍生工作持续推动着声学模型对抗训练技术的发展。

数据集最近研究