SpurAudio

Name: SpurAudio
Creator: 海法大学; 斯图加特大学
Published: 2026-05-13 23:32:57
License: 暂无描述

arXiv2026-05-13 更新2026-05-15 收录

下载链接：

https://github.com/Jerryaa98/SpurAudio

下载链接

链接失效反馈

官方服务：

资源简介：

SpurAudio是由海法大学等机构创建的诊断性基准数据集，旨在系统研究少样本音频分类中的虚假相关性。该数据集通过混合来自五个公开数据集（如ESC-50、UrbanSound8K等）的前景事件与语义无关的背景纹理构建而成，包含16,378条经过人工质量控制的音频混合样本，每条样本时长为5秒，信噪比设置为8dB以模拟真实声学环境。其创建过程采用自动化混合与人工评分相结合的方式，确保前景与背景的感知分离度。该数据集主要应用于评估少样本音频学习模型对上下文背景变化的鲁棒性，旨在揭示模型对虚假关联的依赖程度，推动上下文鲁棒性音频学习算法的发展。

SpurAudio is a diagnostic benchmark dataset created by institutions including the University of Haifa, aiming to systematically study spurious correlations in few-shot audio classification. Constructed by mixing foreground events and semantically irrelevant background textures from five public datasets (e.g., ESC-50, UrbanSound8K, etc.), this dataset contains 16,378 manually quality-controlled audio mixed samples, each with a duration of 5 seconds, and the signal-to-noise ratio (SNR) is set to 8 dB to simulate real acoustic environments. Its creation process combines automated mixing and manual scoring to ensure the perceptual separation between foreground events and background textures. This dataset is primarily used to evaluate the robustness of few-shot audio learning models against contextual background variations, aiming to reveal the degree of model dependence on spurious correlations and promote the development of context-robust audio learning algorithms.

提供机构：

海法大学; 斯图加特大学

创建时间：

2026-05-13

原始信息汇总

SpurAudio 数据集概述

SpurAudio 是一个面向音频少样本分类（Few-Shot Audio Classification）的基准数据集，旨在研究少样本学习中的捷径学习（Shortcut Learning）问题。

数据集来源与构建

基础数据：基于 ESC-50 数据集构建。
数据格式：每个音频样本被转换为语谱图（Spectrogram）张量，以 .npy 格式存储。
数据分布：通过混合两个类别的音频（前景类与背景类）生成样本，背景类作为虚假共现特征（Spurious Co-occurrence），用于测试模型在独立同分布（IID）和分布外（OOD）场景下的表现。

数据集结构与命名规则

数据集目录布局如下：

LibFewShot/ ├── SpurAudio_dataset/ # 每个类别的语谱图张量 (.npy) │ ├── air_conditioner/ │ ├── blender/ │ ├── cat/ │ ├── dog+dog_bark/ │ ├── … # 共 38 个类别文件夹 │ └── laughter/ ├── Auxiliary/ # 归一化统计量和类别划分定义 │ ├── Clean_Mean_Std.npy │ ├── Spurious_Mean_Std.npy │ └── SpurAudio_paper_splits.npy

每个类别文件夹：以前景类命名，内部存储该类别所有样本的 .npy 文件。
文件命名格式：

{前景类}-{背景类}_alpha={混合系数}_loop={循环索引}_id={样本ID}.npy

例如：cat-crying_baby_alpha=0.00013126751582603902_loop=1_id=37.npy，表示前景类为 cat，背景类为 crying_baby。

类别划分

划分文件 Auxiliary/SpurAudio_paper_splits.npy 是一个 NumPy 数组，包含三个条目：
- 索引 0：训练集类别名称列表
- 索引 1：验证集类别名称列表
- 索引 2：测试集类别名称列表
每个条目对应 SpurAudio_dataset/ 下的子文件夹名称列表。

下载地址

数据集可从 Hugging Face 仓库下载： https://huggingface.co/datasets/spuraudioNips/SpurAudio-neurips-anonym

支持的任务与评估模式

IID 评估：测试集与训练集分布一致。
OOD 评估：测试集中背景类与前景类的关系发生变化，用于检测捷径学习。

支持的方法

该数据集配套的代码框架支持多种少样本学习方法：

非 episodic 方法（微调类）：Baseline、Baseline++、Meta-Baseline、DiffKendall
元学习方法：MAML、R2D2、LEO、ANIL、BOIL、MeTAL
度量学习方法：ProtoNet、RelationNet、DN4、ATL-Net、ADM、DeepBDC、MCL
直推式方法：LaplacianShot、BDCSPN、PADDLE、Proto-LP、BPA、ECPE
大型音频模型：CLAP、AudioMAE、AST、QwenAudio-7B-Instruct、Beats
对比学习方法（即将推出）：SimCLR、Contrastive Proto

使用说明

环境配置：需安装 Python 虚拟环境及 requirements.txt 中列出的依赖。
数据准备：可从 Hugging Face 下载，或使用 Mixer 目录下的混合脚本自行构建。
运行训练：通过 YAML 配置文件指定参数，例如： bash python run_trainer.py --yaml_path ./config/proto_5shot_iid.yaml
IID/OOD 切换：在 YAML 配置文件中设置 ood: False（IID）或 ood: True（OOD）。
测试模型：修改 run_test.py 中的 PATH 变量指向训练结果目录，运行测试。

搜集汇总

数据集介绍

构建方式

SpurAudio数据集的构建始于从五个公开音频数据集中采集前景事件与背景噪声，包括ESC-50、UrbanSound8K、VocalSound、WILD DESED和USM。前景与背景类别被刻意配对以保持语义无关性，例如将“狗吠”与“公园噪声”混合。混合过程采用EBU R128响度标准，将背景信号缩放至前景下方8 dB，确保背景可闻但不掩盖前景。此后，两位标注员依据清晰度标准进行人工筛选，剔除背景过于突出或存在额外干扰的样本。最终从50,116个初始混合中精选出16,378个高质量音频事件，构成SpurAudio的核心语料。

特点

SpurAudio的核心特点在于其能够系统性地操控前景与背景之间的虚假关联。数据集被划分为IID（同分布）与OOD（分布外）两种任务类型：在IDD任务中，支持集与查询集共享相同的背景配对；而在OOD任务中，背景配对被有意打乱，以打破模型依赖的语境捷径。此外，SpurAudio支持多层级虚假关联强度控制，通过调整混合系数α来放大背景重叠程度。这一设计使得研究人员能够精确量化少样本音频分类模型在遭遇背景偏移时的性能退化幅度，从而揭示模型对非因果背景线索的真实依赖程度。

使用方法

SpurAudio被设计为一种诊断性基准，用于评估和对比不同少样本分类方法对虚假背景关联的敏感性。使用时，研究人员需按照N-way K-shot的episodic采样协议构建任务，选取SpurAudio训练集进行模型训练，并在独立测试集上分别评估IID与OOD场景的性能。通过计算两种设置下的准确率差距Δ，可直观度量模型对捷径的依赖程度。SpurAudio兼容多种主流少样本学习框架，如LibFewShot，并支持从简单CNN到大规模预训练音频基础模型（如CLAP、AST）的多层级骨干网络评估，从而系统分析表示质量与分类头机制对虚假关联鲁棒性的影响。

背景与挑战

背景概述

SpurAudio数据集由海法大学及独立研究人员于2025年创建，旨在系统性地研究少样本音频分类中的捷径学习现象。在真实世界场景中，音频事件很少孤立存在，前景声音往往叠加在丰富的背景环境之上。与图像中对象与背景在空间上相对分离不同，音频的前景与背景在时频域内不可分割地混合在一起，这使得模型极易利用背景线索与类别标签之间的伪相关，即所谓的‘捷径学习’。然而，现有的音频基准大多专注于广义的域迁移，而未能有效解耦前景与背景之间的相关性，导致对模型鲁棒性的评估可能存在偏差。SpurAudio的提出填补了这一关键空白，通过从五个公开数据集中选取前景事件并与语义无关的背景混合，构建了一个可精细控制前景-背景关联程度的基准，从而能够清晰地诊断模型是真正学习了因果性前景特征，还是依赖于虚假的背景捷径。该数据集的核心研究问题在于揭示当前最先进的少样本音频方法在背景关联被打破时是否存在严重的性能崩塌，并探究不同算法家族对此脆弱性的敏感度差异。其影响力在于首次为少样本音频分类社区提供了一个专门诊断伪相关失效模式的标准化工具，推动了对模型泛化机理的深入理解。

当前挑战

SpurAudio所解决的领域挑战核心在于少样本音频分类中的伪相关捷径学习问题。在真实场景下，模型可能仅仅因为在训练过程中观察到某个前景类别总是与特定的背景环境（如‘猪叫’伴随着‘引擎声’）同时出现，就学会了依赖背景线索进行判断，而非真正识别前景语义。当测试时背景发生变化（如在‘教堂钟声’中识别‘猪叫’），模型性能便会急剧下降，这种隐蔽的脆弱性在以往标准评估协议中难以被暴露。在数据集构建过程中，挑战同样严峻：需要从五个不同域的数据集中精心挑选前景与背景类别，确保它们语义无关但在现实中有共现可能，以避免引入额外的语义混淆；同时，需要采用标准化的响度匹配（EBU R128）和信噪比控制（8 dB感知响度差），使混合后的声音既不过分突兀也不过于模糊，接近真实世界录音。此外，人工质量控制环节需剔除背景中可能包含与前景无意重叠的语义元素（如‘交通噪音’背景中含有‘警笛声’），经过严格的三阶段筛选，最终从50,116个初始混合中精选出16,378个高质量样本，确保了基准的可控性和诊断性的纯净度。

常用场景

经典使用场景

在少样本音频分类领域，SpurAudio数据集的核心经典使用场景在于系统性地评估和诊断模型在面对背景上下文偏移时的脆弱性。该数据集通过人工合成的音频事件，将前景目标声音与语义无关的背景环境声进行可控混合，从而在支持集与查询集之间构建具有不同背景匹配程度的少样本学习任务。研究者可利用该数据集在标准分布内和分布外设置下分别评估模型性能，精确量化模型是否依赖前景与背景之间的虚假相关性作为分类捷径，而非真正学习前景语义内容。这一场景为深入剖析少样本音频分类模型的鲁棒性瓶颈提供了独特的实验平台。

衍生相关工作

SpurAudio的发布催生了一系列具有深远影响的衍生研究工作。在方法层面，受该基准启发，研究者开始探索基于局部描述符匹配的度量学习方法（如DN4），因其天然避免全局聚合而展现出对背景偏移的更强鲁棒性。在理论层面，研究者借助SpurAudio的几何分析框架，揭示了虚假相关性的编码机制：背景变化主要扰动嵌入向量的模长而非方向，从而解释了为何余弦相似的分类头比欧氏距离分类头更为稳健。此外，基于直推式推理的半监督方法（如Proto-LP）因能利用查询集结构信息，在大规模预训练编码器上展现出极小的IID-OOD差距，成为提升鲁棒性的重要方向。这些工作共同推动了少样本音频学习从简单分布内评估向上下文鲁棒性评估的范式转变。

数据集最近研究