Merlin L48Spectrogram Dataset

Name: Merlin L48Spectrogram Dataset
Creator: 马萨诸塞大学阿默斯特分校计算机科学与信息学院
Published: 2025-11-01 04:51:12
License: 暂无描述

arXiv2025-11-01 更新2025-11-06 收录

下载链接：

https://github.com/cvl-umass/l48-benchmarking

下载链接

链接失效反馈

官方服务：

资源简介：

Merlin L48Spectrogram数据集是一个包含美国鸟类录音的精细粒度、真实世界的多标签数据集，每个录音都关联着一个目标物种，同时包含背景物种，从而形成了一个自然的单正、多标签（SPML）任务。数据集覆盖了美国全境，全年记录，包含10万条录音，共110小时，142,000个边界框，为鸟类识别工作流程提供了密集的物种标签。数据集的创建过程包括专家对录音的密集标注，以及通过目标物种元数据采样资产。该数据集旨在解决现实世界中的SPML场景，如物种范围图估计和声学检测等问题。

The Merlin L48Spectrogram Dataset is a fine-grained, real-world multi-label dataset containing bird recordings across the United States. Each recording is associated with one target species while also including background species, thus forming a natural single-positive multi-label (SPML) task. The dataset covers the entire United States, with year-round recordings, comprising 100,000 audio recordings totaling 110 hours of audio and 142,000 bounding boxes, providing dense species labels for bird recognition workflows. Its creation process involves dense manual annotation of recordings by experts, as well as asset sampling leveraging target species metadata. This dataset is intended to address real-world SPML scenarios such as species range map estimation and acoustic detection.

提供机构：

马萨诸塞大学阿默斯特分校计算机科学与信息学院

创建时间：

2025-11-01

原始信息汇总

ML48S 数据集概述

数据集基本信息

数据集名称：ML48S
论文链接：https://arxiv.org/abs/2511.00252
数据下载地址：https://msid-ml48s.s3.amazonaws.com/v0/ml48s.tar.gz

数据集组织架构

图像目录结构

图像存储路径：images/[asset_id]/[clip_num].jpg
每个资产有独立目录，按时间顺序枚举片段

资产元数据

资产包含以下元数据字段：

字段	取值范围	描述
id	[0, 9999]	资产的唯一标识符
split	train, test	训练集或测试集划分
target_species_code	6字母代码	该资产的目标物种
possible_species_codes	[6字母代码]	基于地理范围的可能物种列表
observed_species_codes	[6字母代码]	关联检查表中的物种列表
present_species_codes	[6字母代码]	正标签物种列表
unknown_species_codes	[6字母代码]	既不在正标签也不在负标签中的物种列表
absent_species_codes	[6字母代码]	负标签物种列表

片段元数据

片段包含以下元数据字段：

字段	取值范围	描述
id	[0, 416534]	片段的唯一标识符
asset_id	[0, 9999]	来源资产的ID
clip_order	[0, 1449]	在资产中的位置顺序
file_path	相对文件路径	片段图像文件路径
width	750	图像宽度
height	236	图像高度
present_species_codes	[6字母代码]	正标签物种列表
unknown_species_codes	[6字母代码]	未知标签物种列表
absent_species_codes	[6字母代码]	负标签物种列表
boxes	[字典]	边界框标注信息

边界框标注

边界框包含以下元数据：

字段	取值范围	描述
id	整数	片段内唯一的边界框ID
species_code	6字母代码	鸣叫所属物种
status	"passive", "active", "ignore"	物种在片段中的普遍性
bbox	[0, 1]^4	边界框坐标[xmin, ymin, xmax, ymax]

数据集统计特征

资产总数：10,000个（ID 0-9999）
测试资产：ID ≥ 8000的资产
训练验证划分：每个物种80个训练资产，20个测试资产，其中10个训练资产用作验证
片段数量范围：每个资产包含11-1450个片段
图像尺寸：750×236像素

标签类型

完全标注：所有物种都有明确标签
目标物种标注：仅标注目标物种
地理先验标注：基于地理范围提供弱监督
检查表标注：基于关联检查表提供弱监督

分类信息

物种分类信息：存储在taxa.csv文件中
物种编码：使用6字母代码标识物种

搜集汇总

数据集介绍

构建方式

在鸟类生物声学研究领域，构建高质量标注数据集面临专家标注成本高昂的挑战。Merlin L48Spectrogram数据集基于Merlin鸟类识别应用的音频库，从美国本土48州精选100种鸟类的录音资产，每种物种严格选取100个样本。通过基于频谱图的专业标注界面，专家在每段录音中标注至少5个6秒片段，绘制目标物种与背景物种的边界框，形成包含142,000个标注框的密集标注数据集。该数据集采用80-20比例划分训练测试集，并将原始音频转换为视觉领域可处理的频谱图格式，为单正例多标签学习提供了真实的生态学基础。

特点

该数据集在鸟类声学识别领域具有独特价值，其时空覆盖范围横跨美国本土全年周期，突破了传统数据集在地理和季节维度上的局限性。数据标注采用自然形成的单正例多标签范式，每个录音仅标注目标物种，而背景物种的存在状态未知，真实反映了实际标注场景中的信息不完全特性。相较于合成SPML数据集，L48保留了细粒度物种间的混淆关系与训练测试集标签分布差异，包含大量易混淆物种对（如山雀类与吸汁啄木鸟类），为模型在真实复杂场景下的泛化能力评估提供了更严谨的基准。

使用方法

该数据集支持三种渐进式学习范式：基础目标物种模式下仅使用单正例标签；地理先验模式利用物种分布范围信息推导负标签；清单先验模式结合eBird观测清单进一步扩展负标签覆盖。研究人员可采用标准多标签分类流程，将频谱图输入预训练的ResNet50网络，通过交叉熵损失函数进行模型优化。针对数据集特有的资产-片段层级结构，可引入时间一致性正则化方法，强制同一录音内不同片段的预测结果保持一致性，有效利用背景物种在时间维度上的重复出现特性提升模型性能。

背景与挑战

背景概述

Merlin L48Spectrogram Dataset由马萨诸塞大学阿默斯特分校的研究团队于2025年创建，旨在解决单正多标签学习在真实场景中的局限性。该数据集基于美国本土48州的鸟类录音，涵盖100个物种的11万小时音频，并转换为声谱图图像，提供了密集的边界框标注。其核心研究问题聚焦于如何在仅标注单一物种的情况下，有效识别录音中的多个背景物种，推动了计算机视觉与生态学的交叉领域发展，为弱监督学习提供了更贴近实际的评估基准。

当前挑战

该数据集面临的领域挑战在于细粒度物种分类的高混淆性，例如地理分布重叠的鸟类鸣声难以区分；构建过程中的挑战包括标注效率与质量的平衡，专家仅标注单一物种虽提升效率，却导致背景物种标签缺失，同时声谱图中重叠鸣声的边界框标注需解决时空维度上的复杂性。

常用场景

经典使用场景

在鸟类声学识别研究领域，Merlin L48Spectrogram数据集为单正例多标签学习提供了天然实验平台。该数据集通过专家标注的声谱图边界框，构建了包含100种鸟类、110小时音频的精细标注资源，研究者可利用其探索在仅知单一目标物种情况下的多物种识别问题。数据集覆盖美国本土48州全年鸟类活动记录，为研究季节性、地域性鸟类分布模式提供了丰富样本。

实际应用

在生态监测与保护实践中，该数据集支撑着自动化鸟类监测系统的开发。基于声谱图的视觉分析方法可直接应用于野外录音设备的实时物种识别，助力生物多样性评估。其地理先验与观测清单机制为区域特异性物种识别提供了可行方案，相关技术已延伸至iNatSounds、BirdSet等全球性鸟类声学数据集，为濒危物种栖息地保护提供数据支撑。

衍生相关工作

该数据集催生了多项创新性研究工作，特别是在一致性正则化方法上取得突破。研究者利用数据集中音频片段间的时序关联性，提出资产级预测一致性约束，显著提升了SPML方法的鲁棒性。基于地理范围与观测清单的负标签推导机制，启发了多模态先验知识融合的新范式。这些成果为视频动作识别、卫星图像分析等跨领域研究提供了可迁移的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集