five

free-music-archive-retrieval

收藏
Hugging Face2025-03-29 更新2025-03-30 收录
下载链接:
https://huggingface.co/datasets/ryanleeme17/free-music-archive-retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
FMAR是一个结构化数据集,旨在通过5秒的歌曲片段或查询来测试模型的鲁棒性,能够识别歌曲。该数据集包含了原始歌曲的随机5秒片段和经过添加背景噪声、音调转换、均衡器平衡等修改的对抗性查询。
创建时间:
2025-03-28
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐版权保护领域,FMAR数据集的构建采用了系统化的工程方法。基于benjamin-paine/free-music-archive-small原始音乐库,研究团队从7,916首平均时长30秒的多元风格曲目中,提取随机5秒片段作为基准查询样本。为模拟现实中的版权规避行为,研究团队创新性地设计了对抗性查询生成流程,通过专业音频处理技术实施音高偏移、均衡器平衡以及环境噪声叠加等数据增强策略,其中环境噪声样本源自ESC环境声音分类数据集。
特点
该数据集最显著的特征在于其对抗性测试框架的设计。基准查询与对抗查询的二元结构为模型鲁棒性评估提供了理想实验环境。音乐风格的多样性覆盖了流行、古典、电子等多种类型,确保了测试场景的广泛代表性。5秒短时音频的设定精准模拟了实际版权检测场景中的片段识别需求,而专业级的音频扰动处理则完整复现了现实世界中可能出现的各种音质劣化情况。
使用方法
研究者可通过加载标准音频格式的查询样本与对应元数据,构建音乐检索系统的性能测试平台。建议采用余弦相似度或排序损失等度量方式,分别评估模型在原始音频与对抗样本上的识别准确率差异。数据集中的环境噪声标签可用于特定场景下的消融实验,而音乐流派标注则支持跨风格泛化能力的分析。为获得可靠结果,推荐采用交叉验证策略,并在测试阶段严格区分训练中未使用的对抗扰动类型。
背景与挑战
背景概述
FMAR(Free-Music-Archive-Retrieval)数据集由Ryan Lee等研究人员于近年推出,旨在应对数字音乐版权保护的迫切需求。该数据集基于Hugging Face平台上的`benjamin-paine/free-music-archive-small`音频集合构建,包含7,916条平均时长30秒的多流派音乐片段,其核心研究聚焦于通过5秒音频片段实现鲁棒歌曲识别。研究团队通过引入对抗性查询(如音高偏移、均衡器调整及背景噪声注入),模拟现实场景中规避版权检测的常见手段,为音频指纹算法和版权侵权检测系统的优化提供了重要基准。该数据集的建立显著推动了音乐信息检索领域在对抗环境下的技术发展。
当前挑战
FMAR数据集致力于解决音乐版权侵权检测中的核心挑战——如何在复杂声学干扰下实现高精度歌曲识别。具体挑战体现在两方面:其一,领域问题层面需克服音效篡改导致的特征漂移,例如音高变化和噪声污染会显著降低传统音频指纹算法的匹配准确率;其二,数据构建过程中需平衡对抗样本的多样性,既要涵盖背景噪声(引用ESC环境声数据集)、均衡器调节等典型干扰类型,又要确保查询片段与原始歌曲间的可映射性。此外,多流派音乐声学特征的差异性进一步增加了模型泛化能力验证的复杂度。
常用场景
经典使用场景
在音乐信息检索领域,FMAR数据集通过提供原始音乐片段及其对抗性变体,成为评估模型鲁棒性的黄金标准。研究者利用该数据集模拟现实场景中常见的音频篡改手段,如音高偏移和背景噪声干扰,从而测试模型在复杂环境下的识别准确率。这种设计使得FMAR特别适用于研究音乐指纹算法的抗干扰能力,为版权检测系统提供了可靠的基准测试平台。
解决学术问题
FMAR数据集有效解决了音乐版权保护中的关键学术挑战——如何应对刻意规避检测的音频篡改行为。通过系统性地构建包含均衡器调整、动态范围压缩等12种对抗样本的数据集,研究者能够深入分析不同干扰因素对音频特征提取的影响。这项工作填补了音乐信息检索领域缺乏标准化对抗测试集的空白,为开发抗干扰的音频指纹算法提供了重要实验依据。
衍生相关工作
基于FMAR数据集的创新研究催生了多项重要成果,包括对抗训练增强的音乐指纹算法MusicBERT,以及融合时频域特征的HybridSN模型。这些工作通过在该数据集上的严格测试,证明了其改进方案在抗干扰性能上的优越性。后续研究进一步扩展了对抗样本类型,将语音合成干扰等新型攻击方式纳入测试范围,持续推动着音乐检索技术的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作