arch-raven/music-fingerprint-dataset

Name: arch-raven/music-fingerprint-dataset
Creator: arch-raven
Published: 2022-04-05 11:48:05
License: 暂无描述

Hugging Face2022-04-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/arch-raven/music-fingerprint-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

神经音频指纹数据集包含了所有用于研究基于对比学习的神经音频指纹技术的音乐源、背景噪音和脉冲响应样本。数据集格式为16位PCM单声道WAV，采样率为8000Hz。数据结构包括多个子目录，如训练集、验证集和测试集，以及额外的背景噪音和脉冲响应数据。数据来源多样，包括从Audioset获取的背景噪音、Cochlear.ai记录的咖啡店噪音、以及从Free Music Archive获取的音乐数据。所有数据都转换为单声道8KHz格式。

The Neural Audio Fingerprinting Dataset contains all music sources, background noise samples, and impulse response samples utilized for research on contrastive learning-based neural audio fingerprinting technologies. The dataset is formatted as 16-bit PCM mono WAV with a sampling rate of 8000 Hz. Its data structure comprises multiple subdirectories, including training, validation, and test sets, as well as supplementary background noise and impulse response data. The dataset draws from diverse sources: background noise acquired from Audioset, café noise recorded by Cochlear.ai, and music data obtained from the Free Music Archive. All data has been converted to the mono 8 kHz format.

提供机构：

arch-raven

原始信息汇总

数据集名称

Neural Audio Fingerprint Dataset

数据集格式

音频格式：16-bit PCM Mono WAV
采样率：8000 Hz

数据集结构

fingerprint_dataset_icassp2021/ ├── aug │ ├── bg # 背景噪音混合，如咖啡馆等 │ ├── ir # 麦克风和房间混响模拟的IR数据 │ └── speech # 英语对话，未用于论文结果 ├── extras │ └── fma_info # 音乐源的元数据 └── music ├── test-dummy-db-100k-full # 100K首完整长度的歌曲 ├── test-query-db-500-30s # 500首歌曲（30秒）和2K合成查询 ├── train-10k-30s # 10K首歌曲（30秒）用于训练 └── val-query-db-500-30s # 500首歌曲（30秒）用于验证/小型搜索

数据来源

背景噪音：来自Audioset，关键词包括[subway, metro, underground, not music]
咖啡馆噪音：在首尔星巴克分店由Jeongsoo Park录制
随机噪音：由Donmoon Lee生成
房间/空间IR数据：来自Aachen IR和OpenAIR 1.4数据集
部分MIC IR数据：来自Vintage MIC网站，并结合房间/空间IR数据预处理
部分MIC IR数据：在首尔国立大学的消声室中使用移动设备录制，由Donmoon Lee、Jeonsu Park和Hyungui Lim完成
音乐源：来自Free Music Archive (FMA)数据集，从stereo 44Khz转换为mono 8Khz

许可证

本数据集根据CC BY-SA 2.0许可证分发，其他数据集的复合许可证附在每个子目录中。

搜集汇总

数据集介绍

构建方式

在音频检索领域，高质量数据集的构建对于模型性能至关重要。该数据集通过整合多源音频素材构建而成，音乐源全部取自自由音乐档案馆（FMA），涵盖小型、中型及完整版本，并转换为8kHz单声道WAV格式以统一标准。背景噪声素材源自Audioset关键词检索、实地录制及人工生成，脉冲响应数据则融合了Aachen IR、OpenAIR及专业录音设备在消声室中的采集结果。训练、验证与测试集经过精心划分，确保数据隔离，同时通过合成查询生成了带信噪比控制的查询样本，为对比学习提供了丰富的负例与正例配对。

使用方法

针对神经音频指纹的研究与应用，该数据集提供了明确的使用路径。研究者可直接加载WAV格式的音频文件，利用训练集（train-10k-30s）进行模型训练，验证集（val-query-db-500-30s）用于超参数调整与迷你检索评估。测试阶段则依赖测试查询集（test-query-db-500-30s）及其合成的2000条查询，评估模型在噪声与混响条件下的检索精度。扩展的10万首歌曲数据库（test-dummy-db-100k-full）可用于大规模检索实验，而背景噪声与脉冲响应数据则能灵活用于数据增强，以提升模型在真实场景中的泛化能力。

背景与挑战

背景概述

音频指纹技术作为音频检索领域的核心方法，旨在从复杂声学环境中高效识别特定音频片段。2021年，由Sungkyun Chang等人创建的Neural Audio Fingerprint Dataset，依托于对比学习框架，为高特异性音频检索研究提供了标准化基准。该数据集整合了来自Free Music Archive的多样化音乐素材，辅以背景噪声与脉冲响应样本，模拟真实世界中的音频退化场景，显著推动了基于深度学习的音频指纹模型的发展，并在音频信息检索领域产生了广泛影响。

当前挑战

该数据集致力于解决高特异性音频检索中的核心挑战，即在强噪声、混响及信号失真条件下实现鲁棒且精确的音频匹配。构建过程中的挑战包括多源数据的协调与集成，如从Audioset、Aachen IR等公开资源中筛选并处理背景噪声与脉冲响应样本，同时确保音乐数据从立体声44kHz到单声道8kHz的格式转换中保持信息完整性。此外，需精心设计查询合成策略，以生成涵盖不同信噪比的测试查询，并避免训练、验证与测试集之间的数据泄露，从而保障评估的公正性与可靠性。

常用场景

经典使用场景

在音频信息检索领域，该数据集为神经音频指纹技术提供了标准化的评估基准。其核心应用场景在于模拟真实环境下的音频检索任务，通过包含大量音乐片段、背景噪声及脉冲响应样本，研究者能够训练和测试模型在复杂声学条件下的鲁棒性。例如，利用数据集中的合成查询与对应音乐片段，可系统评估音频指纹算法在噪声干扰下的检索准确率与特异性，为高精度音频匹配奠定实验基础。

解决学术问题

该数据集有效解决了音频检索中因环境噪声、设备差异及声学失真导致的特征退化问题。通过整合多样化的背景噪声与脉冲响应数据，它支持对比学习框架下的特征表示研究，使模型能够学习到对声学变换不变的鲁棒指纹。这推动了音频指纹技术从传统信号处理方法向深度学习范式的转变，提升了在低信噪比条件下的检索性能，为跨设备、跨环境的音频识别提供了理论支撑。

实际应用

在实际应用中，该数据集支撑了音乐识别服务、版权监测与广播内容分析等关键场景。基于其构建的神经音频指纹系统，可部署于移动设备或云端平台，实现实时音频查询与匹配。例如，在嘈杂的公共场所或通过不同麦克风采集的音频中，系统仍能准确识别音乐片段，助力数字版权管理、广播广告监测及智能音乐推荐等商业应用，提升自动化处理的效率与可靠性。

数据集最近研究