five

OpenWhistle-1.0-Pretraining

收藏
Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/dolphinteam/OpenWhistle-1.0-Pretraining
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含高采样率(96kHz)的音频记录及其相关元数据,适用于音频处理和分析任务。数据集提供两种配置:默认配置和审查样本配置。每条记录包含音频数据、开始时间、结束时间、持续时间、记录年份和水听器标识符等字段。默认配置包含28,410个训练样本和3,370个验证样本,总大小约78.99GB;审查样本配置包含430个训练样本和50个验证样本,总大小约1.28GB。该数据集适用于声学研究、环境声音分析或机器学习模型的训练与验证。

This dataset contains high sample rate (96kHz) audio recordings and their associated metadata, suitable for audio processing and analysis tasks. The dataset provides two configurations: default configuration and reviewed samples configuration. Each record includes fields such as audio data, start time, end time, duration, recording year, and hydrophone identifier. The default configuration contains 28,410 training samples and 3,370 validation samples, with a total size of approximately 78.99GB; the reviewed samples configuration contains 430 training samples and 50 validation samples, with a total size of approximately 1.28GB. This dataset is suitable for acoustic research, environmental sound analysis, or training and validation of machine learning models.
创建时间:
2026-04-17
原始信息汇总

数据集概述

OpenWhistle 1.0 Pretraining Dataset 是一个用于海豚哨声预训练的无标签音频数据集,由 dolphinteam/OpenWhistle-1.0-Pretraining 提供。

数据集配置

  • default:完整的预训练数据集。
  • review-sample:一个小型确定性样本子集,便于快速人工审查。

数据特征

  • 采样率:96 kHz,单声道音频。
  • 字段audio(音频)、start_time(开始时间,float32)、end_time(结束时间,float32)、duration(时长,float32)、year(年份,int32)、hydrophone(水听器,string)。
  • 标签:无标签,适用于无监督或自监督预训练。

数据集规模

配置 拆分 样本数 时长(秒) 时长(小时)
default train 28,410 367,792.80 102.165
default validation 3,370 43,629.20 12.119
default 总计 31,780 411,422.00 114.284
review-sample train 430 6,017.60 1.672
review-sample validation 50 642.40 0.178
review-sample 总计 480 6,660.00 1.850

完整数据集覆盖情况

按年份分布

年份 train validation 总计
2019 920 119 1,039
2020 1,420 179 1,599
2021 14,376 1,820 16,196
2023 9,885 1,055 10,940
2024 1,809 197 2,006

按水听器通道分布

通道 train validation 总计
channel_0 20,808 2,599 23,407
channel_1 7,130 741 7,871
channel_2 472 30 502

按年份与水听器通道分布

拆分 2019 ch0 2020 ch0 2021 ch0 2023 ch0 2023 ch1 2023 ch2 2024 ch0 2024 ch1
train 920 1,420 14,376 3,982 5,431 472 110 1,699
validation 119 179 1,820 464 561 30 17 180
总计 1,039 1,599 16,196 4,446 5,992 502 127 1,879

Review Sample 覆盖情况

拆分 年份分布 水听器通道分布
train 2019: 12; 2020: 33; 2021: 218; 2023: 137; 2024: 30 channel_0: 336; channel_1: 93; channel_2: 1
validation 2021: 20; 2023: 30 channel_0: 37; channel_1: 11; channel_2: 2
搜集汇总
数据集介绍
main_image_url
构建方式
OpenWhistle-1.0-Pretraining数据集专为海豚哨声的预训练任务而构建,包含超过31,000段采样率为96 kHz的单声道音频片段,总时长逾114小时。数据源自2019至2024年间多个水听器通道的实地记录,并附带起止时间、持续时长、年份及水听器编号等元数据,但未提供哨声或噪声标签,旨在服务于无监督或自监督学习范式。为方便审核,另设一规模较小的确定性子集review-sample,其构建方式是在保留原始训练/验证分割比例的前提下,通过固定随机种子与有限洗牌缓冲区对数据流进行抽样,确保样本结构代表性且下载轻量。
特点
该数据集的核心特点在于其高时间分辨率与多维度覆盖能力。96 kHz的采样率确保了海豚哨声高频细节的完整保留,适用于精细化的声学特征提取。数据按年份和水听器通道双重分布,涵盖五个年份与三个通道,其中2021年及channel_0的样本占比最高,展现了丰富的时空多样性。训练与验证集分别包含28,410和3,370条记录,规模均衡,足以支撑大规模预训练模型的参数学习。review-sample子集则浓缩了480条代表性样本,便于研究者在不下载全集的情况下快速评估数据质量与适用性。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集的完整版本或样本版本。加载完整数据集时直接调用load_dataset函数并指定默认配置,即可获取包含训练与验证分割的音频数据;如需使用review-sample子集,则需额外传入配置名称'review-sample'。加载后,每个样本均以音频张量形式呈现,配合元数据字段如start_time与duration,可灵活用于构建自定义的预训练任务,例如掩码声学建模或对比学习,无需额外标签标注。
背景与挑战
背景概述
OpenWhistle-1.0-Pretraining数据集由海豚研究团队于2024年公开发布,旨在为海洋生物声学领域提供大规模、无标注的宽吻海豚哨声预训练音频资源。该数据集收录了2019至2024年间来自多个水听器通道的96千赫兹高采样率单声道声学片段,总计超过31,000条、114小时的有效数据,覆盖了不同年份与水文环境下的海豚发声记录。其核心研究问题在于支撑自监督与无监督表征学习模型的预训练,从而推动对海豚交流行为的自动化分析与理解。该数据集的发布填补了高保真度、长时序、跨年份的海豚声学预训练语料的空白,为后续下游任务如哨声检测、个体识别及群体行为建模奠定了数据基础,显著提升了该领域的研究可复现性与规模化能力。
当前挑战
该数据集面临的挑战首先体现在领域问题层面:海豚声学信号在自然海洋环境中常混杂船舶噪声、生物干扰及多源回声,导致无标注预训练语料难以直接用于高精度哨声分类或事件检测。构建过程中,团队需处理多通道、跨年度数据的一致性对齐问题,例如不同水听器通道(channel_0至channel_2)的灵敏度差异及采样时间戳的标准化。此外,数据分布极不均衡,2019年和2020年的样本量远少于2021年,而水听器channel_2的样本仅占总量约1.6%,这要求预训练策略必须兼顾长尾分布与噪声鲁棒性。最终,为保证数据可操作性与社区审查效率,团队在保持原始结构的前提下,设计了小规模确定性样本子集,这进一步对模型泛化能力提出了精细评估需求。
常用场景
经典使用场景
OpenWhistle-1.0-Pretraining数据集的核心价值在于为海洋生物声学领域提供了大规模、高保真的无标注海豚哨声音频预训练语料。该数据集收录了31,780段采样率为96 kHz的声学片段,总时长约114小时,音频源自多个水听器信道并覆盖2019至2024年的采集记录,其设计初衷是服务于自监督或无监督的预训练范式,使研究者能够从海量未标注声学数据中学习到鲁棒的音频表征,进而迁移至下游的哨声检测与分类任务。
衍生相关工作
围绕OpenWhistle-1.0-Pretraining已衍生出若干重要的学术成果与资源。其中最为瞩目的是OpenWhistle系列中的CNN标注版本数据集,其以本预训练语料为起点,通过半自动标注与人工审核结合的方式构建了监督微调基准。此外,研究者开发了针对海豚声学特征的对比预训练框架,以及基于该数据集的哨声表征迁移学习基准,这些工作共同验证了大规模无标注声学预训练在海洋生物声学中的有效性,并启发后续研究探索时空对齐、多模态融合等更复杂的自监督范式。
数据集最近研究
最新研究方向
在生物声学与海洋生态保护的前沿交叉领域,OpenWhistle-1.0-Pretraining数据集为海豚声学信号的深度无监督预训练开辟了新范式。该数据集汇集了2019至2024年间来自多通道水听器记录的约114小时96kHz高保真音频片段,其高频采样率与长时序覆盖特性,使得研究者得以提炼海豚哨声的细粒度时频表征,从而支撑自监督学习模型在海量未标注声学时域数据上的预训练。这一研究方向契合了当前海洋哺乳动物声学监测的智能化转型需求——通过大规模预训练架构,模型能够从原始声场中自动习得健壮的低维特征,进而提升下游哨声检测与分类的泛化能力。数据集的多年份、多通道布局,亦为探究声学环境时空演变与动物行为关联提供了量化基准,推动了生物声学分析从手工特征工程向端到端深度学习范式的跨越。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作