SpurAudio
收藏SpurAudio 数据集概述
SpurAudio 是一个面向音频少样本分类(Few-Shot Audio Classification)的基准数据集,旨在研究少样本学习中的捷径学习(Shortcut Learning)问题。
数据集来源与构建
- 基础数据:基于 ESC-50 数据集构建。
- 数据格式:每个音频样本被转换为语谱图(Spectrogram)张量,以
.npy格式存储。 - 数据分布:通过混合两个类别的音频(前景类与背景类)生成样本,背景类作为虚假共现特征(Spurious Co-occurrence),用于测试模型在独立同分布(IID)和分布外(OOD)场景下的表现。
数据集结构与命名规则
数据集目录布局如下:
LibFewShot/ ├── SpurAudio_dataset/ # 每个类别的语谱图张量 (.npy) │ ├── air_conditioner/ │ ├── blender/ │ ├── cat/ │ ├── dog+dog_bark/ │ ├── … # 共 38 个类别文件夹 │ └── laughter/ ├── Auxiliary/ # 归一化统计量和类别划分定义 │ ├── Clean_Mean_Std.npy │ ├── Spurious_Mean_Std.npy │ └── SpurAudio_paper_splits.npy
-
每个类别文件夹:以前景类命名,内部存储该类别所有样本的
.npy文件。 -
文件命名格式:
{前景类}-{背景类}_alpha={混合系数}_loop={循环索引}_id={样本ID}.npy
例如:
cat-crying_baby_alpha=0.00013126751582603902_loop=1_id=37.npy,表示前景类为cat,背景类为crying_baby。
类别划分
- 划分文件
Auxiliary/SpurAudio_paper_splits.npy是一个 NumPy 数组,包含三个条目:- 索引
0:训练集类别名称列表 - 索引
1:验证集类别名称列表 - 索引
2:测试集类别名称列表
- 索引
- 每个条目对应
SpurAudio_dataset/下的子文件夹名称列表。
下载地址
数据集可从 Hugging Face 仓库下载: https://huggingface.co/datasets/spuraudioNips/SpurAudio-neurips-anonym
支持的任务与评估模式
- IID 评估:测试集与训练集分布一致。
- OOD 评估:测试集中背景类与前景类的关系发生变化,用于检测捷径学习。
支持的方法
该数据集配套的代码框架支持多种少样本学习方法:
- 非 episodic 方法(微调类):Baseline、Baseline++、Meta-Baseline、DiffKendall
- 元学习方法:MAML、R2D2、LEO、ANIL、BOIL、MeTAL
- 度量学习方法:ProtoNet、RelationNet、DN4、ATL-Net、ADM、DeepBDC、MCL
- 直推式方法:LaplacianShot、BDCSPN、PADDLE、Proto-LP、BPA、ECPE
- 大型音频模型:CLAP、AudioMAE、AST、QwenAudio-7B-Instruct、Beats
- 对比学习方法(即将推出):SimCLR、Contrastive Proto
使用说明
-
环境配置:需安装 Python 虚拟环境及
requirements.txt中列出的依赖。 -
数据准备:可从 Hugging Face 下载,或使用
Mixer目录下的混合脚本自行构建。 -
运行训练:通过 YAML 配置文件指定参数,例如: bash python run_trainer.py --yaml_path ./config/proto_5shot_iid.yaml
-
IID/OOD 切换:在 YAML 配置文件中设置
ood: False(IID)或ood: True(OOD)。 -
测试模型:修改
run_test.py中的PATH变量指向训练结果目录,运行测试。

- 1SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification海法大学; 斯图加特大学 · 2026年



