NOAA Passive Acoustic Data
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://console.cloud.google.com/ storage/browser/noaa-passive-bioacoustic; tab=objects?inv=1&invt=AbnmXQ&prefix= &forceOnObjectsSortingFiltering=false
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由美国国家海洋和大气管理局(NOAA)的被动声学监测系统收集,涵盖了2023年或之后开始记录的多个水听器的数据。数据集整合了自动识别系统(AIS)数据,以平衡船的分布和原始音频分布。使用层次K-means聚类方法对原始音频数据进行采样,并与AIS样本相结合,以创建一个均衡且多样化的数据集。该数据集为自监督学习模型的开发提供了支持,有助于实现各种任务,如监测海洋哺乳动物和评估噪音污染。
This dataset was collected by the Passive Acoustic Monitoring system of the National Oceanic and Atmospheric Administration (NOAA), covering data from multiple hydrophones whose recordings started in 2023 or later. The dataset integrates Automatic Identification System (AIS) data to balance the distribution of vessels and that of the original audio data. Hierarchical K-means clustering was employed to sample the raw audio data, which was then combined with AIS samples to create a balanced and diverse dataset. This dataset supports the development of self-supervised learning models, and facilitates various tasks such as marine mammal monitoring and noise pollution assessment.
提供机构:
Center of Mathematics and Computer Science, Amsterdam, Netherlands
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
NOAA Passive Acoustic Data数据集的构建采用了自动化数据整理流程,整合了来自美国水域多个水听器的被动声学监测(PAM)数据与自动识别系统(AIS)数据。通过分层k-means聚类方法对原始音频数据进行采样,并结合AIS样本以确保数据集的多样性和平衡性。该流程首先将原始音频重采样至16 kHz,并采用10秒无重叠窗口进行分段处理,随后利用预训练模型生成2048维的嵌入表示。AIS数据则通过设定阈值进行筛选,以平衡不同船舶类型的分布,最终形成包含约970小时录音的精选数据集。
特点
该数据集的核心特点在于其高度多样化的海洋声学环境覆盖,包含来自11个水听器、跨越8年6个月的连续监测数据。通过AIS数据对齐技术,实现了船舶辐射噪声与背景噪声的有效关联,解决了水下声学数据低对比度的难题。分层聚类策略确保了数据在时间、空间和声学特征上的均匀分布,特别优化了长尾数据的代表性。数据集包含323,532个PAM样本和25,021个AIS对齐样本,为自监督学习提供了理想的训练素材,能够有效支持船舶类型识别和声污染评估等下游任务。
使用方法
该数据集专为自监督学习模型设计,用户可采用Data2vec等框架进行预训练。实践应用中,建议将10秒音频窗口的梅尔频谱图作为输入特征,配合15%的掩码率进行对比学习。对于下游任务,可直接利用预训练生成的嵌入特征,通过逻辑回归等简单分类器实现船舶类型识别。数据集的AIS元数据支持特定船舶声纹分析,而分层聚类结构便于用户根据需求选择不同粒度(全局/局部特征)的子集。需要注意的是,由于不同水域声学环境差异,跨区域应用时建议进行域适应微调。
背景与挑战
背景概述
NOAA Passive Acoustic Data是由美国国家海洋和大气管理局(NOAA)收集的被动声学监测(PAM)数据集,主要用于研究海洋生态系统中的声音污染及其对海洋生物的影响。该数据集由多个水听器记录的水下声音组成,涵盖了广泛的海洋环境。数据集的核心研究问题在于如何利用这些大规模、未标记的声学数据,通过自监督学习(SSL)技术自动分析和分类水下声音,如船只噪音和海洋哺乳动物的声音。该数据集的创建时间为2023年,主要研究人员包括Hilde I Hummel等来自荷兰数学与计算机科学中心的学者。NOAA Passive Acoustic Data的发布为海洋声学研究提供了宝贵资源,推动了水下声学自动分析技术的发展。
当前挑战
NOAA Passive Acoustic Data面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,水下声学数据的复杂性和多样性使得传统机器学习方法难以有效分类和识别声音信号,尤其是在背景噪音干扰下。此外,数据的长尾分布问题导致模型在少数类别的识别上表现不佳。在构建过程方面,数据集的规模庞大且未标记,使得手动标注变得不切实际;同时,不同水听器记录的数据在时间和空间上的分布不均,增加了数据对齐和整合的难度。此外,如何通过自动化的数据整理流程从原始数据中提取多样且平衡的子集,以支持自监督学习模型的训练,也是一个重要的技术挑战。
常用场景
经典使用场景
NOAA Passive Acoustic Data数据集在海洋声学监测领域具有广泛的应用价值,其经典使用场景包括对海洋哺乳动物的声学行为研究以及船舶噪声的自动识别。通过整合AIS数据与多区域水听器记录,该数据集能够提供丰富的声学样本,支持自监督学习模型的训练,从而实现对复杂海洋声学环境的高效分析。
解决学术问题
该数据集解决了海洋声学研究中标签数据稀缺的关键问题。通过自动化的数据筛选与平衡处理,研究者能够构建多样化的无标注数据集,为自监督学习模型提供高质量的输入。这不仅提升了船舶类型分类等下游任务的准确性,还为声污染评估提供了可靠的数据基础,推动了海洋生态保护的学术进展。
衍生相关工作
该数据集衍生出多项经典研究,如基于分层K均值聚类的数据筛选方法,以及结合AIS信息的声学样本平衡技术。相关成果进一步催生了Deepship和ShipsEar等基准数据集的优化应用,并推动了Data2vec等自监督学习框架在海洋声学领域的适应性改进。
以上内容由遇见数据集搜集并总结生成



