OpenWhistle-1.0-Detection-Finetuning

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/dolphinteam/OpenWhistle-1.0-Detection-Finetuning

下载链接

链接失效反馈

官方服务：

资源简介：

OpenWhistle-1.0-Detection-Finetuning是一个用于二进制哨声检测的微调数据集。该数据集基于经过筛选的OpenWhistle检测片段构建，任务目标是将音频分类为噪声或哨声。数据集包含5600个样本，其中训练集4480个样本，测试集1120个样本，且噪声和哨声样本数量在训练集和测试集中均保持平衡。每个样本包含以下特征：音频片段（以decode=False存储）、二进制类别标签（noise或whistle）、原始剪辑文件名以及二进制合并前的原始源标签。数据集通过确定性分层抽样按源标签进行划分，测试集占比0.2，随机种子为42。原始源标签包括多个身份标签（如Dana、Luna等）和噪声标签（noise_family::other_noise）。该数据集适用于二进制音频分类任务，特别是哨声检测相关的微调应用。

创建时间：

2026-04-22

原始信息汇总

数据集概述

OpenWhistle-1.0-Detection-Finetuning 是一个用于二元口哨声检测的微调数据集，基于 OpenWhistle-1.0 构建。

任务与标签

任务：二元口哨声检测（Binary Whistle Detection）
标签类别：noise（噪音）、whistle（口哨声）

数据规模

总行数：5600 条
训练集：4480 条
测试集：1120 条

特征字段

audio：音频剪辑，存储时未解码（decode=False）
label：二元分类标签，取值为 noise 或 whistle
name：原始音频剪辑文件名
source_label：二元折叠前的原始源标签

标签分布

全局：noise=2800，whistle=2800
训练集：noise=2240，whistle=2240
测试集：noise=560，whistle=560

源标签分布

训练集：Dana=320，Luna=320，NSW_9=320，Nana=320，Neo=320，Nikita=320，Yosefa=320，noise=2240
测试集：Dana=80，Luna=80，NSW_9=80，Nana=80，Neo=80，Nikita=80，Yosefa=80，noise=560

源组分布

训练集：identity::Dana=320，identity::Luna=320，identity::NSW_9=320，identity::Nana=320，identity::Neo=320，identity::Nikita=320，identity::Yosefa=320，noise_family::other_noise=2240
测试集：identity::Dana=80，identity::Luna=80，identity::NSW_9=80，identity::Nana=80，identity::Neo=80，identity::Nikita=80，identity::Yosefa=80，noise_family::other_noise=560

数据集构建

构建方式：基于精心挑选的 OpenWhistle 检测剪辑
标签折叠规则：将所有非 noise 的原始源标签合并为 whistle
划分规则：deterministic_stratified_by_source_label（按源标签确定性分层）
测试集比例：0.2
随机种子：42

数据分割

训练集：4480 条，约 430.5 MB
测试集：1120 条，约 107.6 MB
总下载大小：约 538.3 MB
总数据集大小：约 538.1 MB

使用示例

python from datasets import Audio, load_dataset

dataset = load_dataset("dolphinteam/OpenWhistle-1.0-Detection-Finetuning") decoded_train = dataset["train"].cast_column("audio", Audio()) sample = decoded_train[0]

搜集汇总

数据集介绍

构建方式

OpenWhistle-1.0-Detection-Finetuning数据集专为二元口哨与噪声检测任务而构建，源于精心筛选的OpenWhistle检测片段。其构建规则颇具巧思：将原始数据中所有非噪声类别的源标签统一归并为口哨类别，从而形成清晰的二元分类体系。数据集采用确定性分层抽样策略，依据源标签进行划分，确保各类别在各数据子集中得到充分且均衡的呈现。具体而言，测试集占比设定为0.2，随机种子固定为42，共计生成5600条数据样本，其中训练集包含4480条，测试集包含1120条，为口哨检测模型的微调提供了结构严谨、分布均衡的基础语料。

特点

该数据集的核心特征在于其精细的音频存储与标签设计。音频字段以`decode=False`模式存储，保留了原始音频数据的无损结构，便于后续按需解码与处理。每一条记录均配备音频文件名、二元类别标签（噪声或口哨）以及原始源标签，形成从原始来源到任务标签的完整可追溯链条。值得注意的是，数据集在口哨类别下涵盖了七种不同个体（如Dana、Luna等）的声音样本，与噪声类别共同构成严格的均衡分布——训练集与测试集中两类样本数量均为1:1，有效规避了类别不平衡对模型训练的潜在干扰，保障了文本特征提取与分类器训练的公平性。

使用方法

使用该数据集进行模型微调与评估极为便捷。开发者可通过HuggingFace的`datasets`库直接加载数据，调用`load_dataset`函数即可获取完整的训练与测试子集。在音频处理阶段，仅需对数据集执行`cast_column`操作，将音频列解码为标准`Audio`格式，即可通过索引便捷访问任意样本的音频波形与标签信息。例如，通过`dataset['train'].cast_column('audio', Audio())[0]`即可获取训练集中首条样本的解码音频数据。数据集内置的明确划分规则与均衡的标签分布，使得研究者能够直接投入模型训练与性能评估，无需额外进行数据清洗或重采样操作，显著提升了实验流程的简洁性与可复现性。

背景与挑战

背景概述

在海洋生态学与生物声学研究领域，海豚等鲸类动物的哨声信号（whistle）是理解其社会行为、种群动态及环境适应性的关键声学指标。然而，从海洋噪声中高效、准确地检测并识别哨声信号，长期以来是海洋被动声学监测领域的核心难题。OpenWhistle-1.0-Detection-Finetuning数据集应运而生，由致力于海洋声学智能分析的研究团队于近期创建，旨在解决海豚哨声检测中的实际挑战。该数据集是OpenWhistle-1.0的微调版本，聚焦于二分类任务——精准区分哨声与噪声，共计包含5600条标注音频样本，训练集与测试集分别占4480条与1120条。通过系统性地将非噪声源标签（如个体海豚标识）折叠为哨声类别，并采用基于源标签的确定性分层划分策略（种子42，测试集比例0.2），数据集在确保类别平衡性（噪声与哨声各2800条）的同时，保留了原始声源标识信息，为模型训练与评估提供了严谨的数据基础。该数据集的出现，显著推动了海洋声学信号处理与机器学习交叉领域的研究进展，为开发自动化、高鲁棒性的哨声检测模型奠定了重要基石。

当前挑战

当前海豚哨声自动检测领域面临多重挑战。其一，真实海洋环境噪声复杂多变，包含风浪噪声、船舶引擎、生物发声等非目标声源，使得哨声与噪声的声学边界模糊，模型极易受背景干扰而产生误判。其二，哨声信号本身具有高度个体差异性，不同海豚个体发出的哨声在频率调制、持续时间、谐波结构上存在显著变异，而同一群体内哨声又可能因社交情境动态变化，增加了类别内变异程度，要求模型具备强泛化能力。在数据集构建层面，挑战同样严峻：原始录音需从长时程连续监测记录中精准截取有效片段，这一过程依赖专家人工标注，成本高昂且主观性强；此外，不同采集设备、采样环境和海豚群体的差异导致数据分布偏移，如何在有限样本量（5600条）下平衡个体与群体代表性，并控制噪声与哨声类别比例均衡，是构建可靠训练集的核心难题。最终，模型需同时克服声学变异、环境噪声与数据稀缺等多重障碍，方能实现野外条件下的实用化检测。

常用场景

经典使用场景

OpenWhistle-1.0-Detection-Finetuning是一个专注于海豚哨声二分类检测任务的微调数据集。在海洋声学与生物保护研究领域，研究者常利用此数据集构建神经网络分类器，从复杂的水下噪声环境中精确分离出海豚发出的哨声音频。该数据集精心设计了等量正负样本（哨声与噪声各2800条），并细分为训练集与测试集，为监督学习范式中的模型训练与评估提供了标准化的基准。其典型用法包括使用预训练音频模型（如CNN或Transformer架构）进行迁移学习，从而在海豚个体识别、群体活动监测以及声学生态调查中实现高效、精准的哨声检测。

解决学术问题

该数据集有效解决了海洋生物声学研究中长期存在的哨声与背景噪声混淆难题。学术研究领域，传统方法依赖人工标注与简单阈值判别，不仅效率低下且泛化能力弱。OpenWhistle-1.0-Detection-Finetuning通过引入多来源个体（Dana、Luna等七头海豚）与多样化噪声类型，构建了一个兼具类平衡与源标签分层特性的基准数据集，使得模型能够学习到鲁棒的声学特征。它的出现推动了水下声学分类从规则驱动向数据驱动转变，为构建通用性海豚声学识别系统奠定了数据基础，显著提升了物种间与个体间声学差异研究的可重复性与科学严谨性。

衍生相关工作

围绕OpenWhistle-1.0-Detection-Finetuning，研究社区已衍生出多项经典工作。例如，若干工作基于该数据集探索了数据增强策略（如时间拉伸、频谱掩码）对不平衡声学分类的性能提升；另一些研究则聚焦于跨个体泛化能力，通过对比不同海豚个体的哨声特征分布，提出了针对小样本场景的元学习框架。更前沿的探索包括利用该数据集作为预训练种子，结合对比学习（Contrastive Learning）范式构建无监督哨声表征模型，进一步扩展至多物种鲸豚声学识别。这些衍生工作共同构建了一个从基础检测到高级特征建模的技术演进图谱，持续推动海洋声学智能分析的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集