OpenWhistle-1.0-Pretraining

Hugging Face2026-04-27 更新2026-04-28 收录

下载链接：

https://huggingface.co/datasets/dolphinteam/OpenWhistle-1.0-Pretraining

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含高采样率（96kHz）的音频记录及其相关元数据，适用于音频处理和分析任务。数据集提供两种配置：默认配置和审查样本配置。每条记录包含音频数据、开始时间、结束时间、持续时间、记录年份和水听器标识符等字段。默认配置包含28,410个训练样本和3,370个验证样本，总大小约78.99GB；审查样本配置包含430个训练样本和50个验证样本，总大小约1.28GB。该数据集适用于声学研究、环境声音分析或机器学习模型的训练与验证。

This dataset contains high sample rate (96kHz) audio recordings and their associated metadata, suitable for audio processing and analysis tasks. The dataset provides two configurations: default configuration and reviewed samples configuration. Each record includes fields such as audio data, start time, end time, duration, recording year, and hydrophone identifier. The default configuration contains 28,410 training samples and 3,370 validation samples, with a total size of approximately 78.99GB; the reviewed samples configuration contains 430 training samples and 50 validation samples, with a total size of approximately 1.28GB. This dataset is suitable for acoustic research, environmental sound analysis, or training and validation of machine learning models.

创建时间：

2026-04-17

原始信息汇总

数据集概述

OpenWhistle 1.0 Pretraining Dataset 是一个用于海豚哨声预训练的无标签音频数据集，由 dolphinteam/OpenWhistle-1.0-Pretraining 提供。

数据集配置

default：完整的预训练数据集。
review-sample：一个小型确定性样本子集，便于快速人工审查。

数据特征

采样率：96 kHz，单声道音频。
字段：audio（音频）、start_time（开始时间，float32）、end_time（结束时间，float32）、duration（时长，float32）、year（年份，int32）、hydrophone（水听器，string）。
标签：无标签，适用于无监督或自监督预训练。

数据集规模

配置	拆分	样本数	时长（秒）	时长（小时）
default	train	28,410	367,792.80	102.165
default	validation	3,370	43,629.20	12.119
default 总计		31,780	411,422.00	114.284
review-sample	train	430	6,017.60	1.672
review-sample	validation	50	642.40	0.178
review-sample 总计		480	6,660.00	1.850

完整数据集覆盖情况

按年份分布：

年份	train	validation	总计
2019	920	119	1,039
2020	1,420	179	1,599
2021	14,376	1,820	16,196
2023	9,885	1,055	10,940
2024	1,809	197	2,006

按水听器通道分布：

通道	train	validation	总计
channel_0	20,808	2,599	23,407
channel_1	7,130	741	7,871
channel_2	472	30	502

按年份与水听器通道分布：

拆分	2019 ch0	2020 ch0	2021 ch0	2023 ch0	2023 ch1	2023 ch2	2024 ch0	2024 ch1
train	920	1,420	14,376	3,982	5,431	472	110	1,699
validation	119	179	1,820	464	561	30	17	180
总计	1,039	1,599	16,196	4,446	5,992	502	127	1,879

Review Sample 覆盖情况

拆分	年份分布	水听器通道分布
train	2019: 12; 2020: 33; 2021: 218; 2023: 137; 2024: 30	channel_0: 336; channel_1: 93; channel_2: 1
validation	2021: 20; 2023: 30	channel_0: 37; channel_1: 11; channel_2: 2

搜集汇总

数据集介绍

构建方式

OpenWhistle-1.0-Pretraining数据集专为海豚哨声的预训练任务而构建，包含超过31,000段采样率为96 kHz的单声道音频片段，总时长逾114小时。数据源自2019至2024年间多个水听器通道的实地记录，并附带起止时间、持续时长、年份及水听器编号等元数据，但未提供哨声或噪声标签，旨在服务于无监督或自监督学习范式。为方便审核，另设一规模较小的确定性子集review-sample，其构建方式是在保留原始训练/验证分割比例的前提下，通过固定随机种子与有限洗牌缓冲区对数据流进行抽样，确保样本结构代表性且下载轻量。

特点

该数据集的核心特点在于其高时间分辨率与多维度覆盖能力。96 kHz的采样率确保了海豚哨声高频细节的完整保留，适用于精细化的声学特征提取。数据按年份和水听器通道双重分布，涵盖五个年份与三个通道，其中2021年及channel_0的样本占比最高，展现了丰富的时空多样性。训练与验证集分别包含28,410和3,370条记录，规模均衡，足以支撑大规模预训练模型的参数学习。review-sample子集则浓缩了480条代表性样本，便于研究者在不下载全集的情况下快速评估数据质量与适用性。

使用方法

用户可通过HuggingFace的datasets库便捷加载该数据集的完整版本或样本版本。加载完整数据集时直接调用load_dataset函数并指定默认配置，即可获取包含训练与验证分割的音频数据；如需使用review-sample子集，则需额外传入配置名称'review-sample'。加载后，每个样本均以音频张量形式呈现，配合元数据字段如start_time与duration，可灵活用于构建自定义的预训练任务，例如掩码声学建模或对比学习，无需额外标签标注。

背景与挑战

背景概述

OpenWhistle-1.0-Pretraining数据集由海豚研究团队于2024年公开发布，旨在为海洋生物声学领域提供大规模、无标注的宽吻海豚哨声预训练音频资源。该数据集收录了2019至2024年间来自多个水听器通道的96千赫兹高采样率单声道声学片段，总计超过31,000条、114小时的有效数据，覆盖了不同年份与水文环境下的海豚发声记录。其核心研究问题在于支撑自监督与无监督表征学习模型的预训练，从而推动对海豚交流行为的自动化分析与理解。该数据集的发布填补了高保真度、长时序、跨年份的海豚声学预训练语料的空白，为后续下游任务如哨声检测、个体识别及群体行为建模奠定了数据基础，显著提升了该领域的研究可复现性与规模化能力。

当前挑战

该数据集面临的挑战首先体现在领域问题层面：海豚声学信号在自然海洋环境中常混杂船舶噪声、生物干扰及多源回声，导致无标注预训练语料难以直接用于高精度哨声分类或事件检测。构建过程中，团队需处理多通道、跨年度数据的一致性对齐问题，例如不同水听器通道（channel_0至channel_2）的灵敏度差异及采样时间戳的标准化。此外，数据分布极不均衡，2019年和2020年的样本量远少于2021年，而水听器channel_2的样本仅占总量约1.6%，这要求预训练策略必须兼顾长尾分布与噪声鲁棒性。最终，为保证数据可操作性与社区审查效率，团队在保持原始结构的前提下，设计了小规模确定性样本子集，这进一步对模型泛化能力提出了精细评估需求。

常用场景

经典使用场景

OpenWhistle-1.0-Pretraining数据集的核心价值在于为海洋生物声学领域提供了大规模、高保真的无标注海豚哨声音频预训练语料。该数据集收录了31,780段采样率为96 kHz的声学片段，总时长约114小时，音频源自多个水听器信道并覆盖2019至2024年的采集记录，其设计初衷是服务于自监督或无监督的预训练范式，使研究者能够从海量未标注声学数据中学习到鲁棒的音频表征，进而迁移至下游的哨声检测与分类任务。

衍生相关工作

围绕OpenWhistle-1.0-Pretraining已衍生出若干重要的学术成果与资源。其中最为瞩目的是OpenWhistle系列中的CNN标注版本数据集，其以本预训练语料为起点，通过半自动标注与人工审核结合的方式构建了监督微调基准。此外，研究者开发了针对海豚声学特征的对比预训练框架，以及基于该数据集的哨声表征迁移学习基准，这些工作共同验证了大规模无标注声学预训练在海洋生物声学中的有效性，并启发后续研究探索时空对齐、多模态融合等更复杂的自监督范式。

数据集最近研究