dolphinteam/NewPretraining

Name: dolphinteam/NewPretraining
Creator: dolphinteam
Published: 2026-03-31 21:03:19
License: 暂无描述

Hugging Face2026-03-31 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/dolphinteam/NewPretraining

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: audio dtype: audio: sampling_rate: 44100 - name: start_time dtype: float32 - name: end_time dtype: float32 - name: duration dtype: float32 - name: year dtype: int32 - name: hydrophone dtype: string splits: - name: train num_bytes: 64727228124.0 num_examples: 28410 - name: validation num_bytes: 7695460500.0 num_examples: 3370 download_size: 33930289987 dataset_size: 72422688624.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* --- # NewPretraining Cleaned version of `dolphinteam/Dolphin-Pretraining-clean-year-hydro` with the segments overlapping the whistle finetuning dataset removed. ## Notes - Audio is embedded directly inside the Parquet shards. - Shards are written with `SNAPPY` compression for the audio columns. - The split strategy is deterministic at the recording level with seed `42`.

提供机构：

dolphinteam

搜集汇总

数据集介绍

构建方式

在海洋生物声学研究领域，高质量音频数据的系统化采集与处理对于模型训练至关重要。NewPretraining数据集基于`dolphinteam/Dolphin-Pretraining-clean-year-hydro`版本构建，通过移除与哨声微调数据集重叠的音频片段，实现了数据的进一步净化。其构建过程采用确定性的分割策略，以种子值42在录音级别进行划分，确保数据分割的可复现性。音频数据直接嵌入Parquet分片中，并针对音频列应用了SNAPPY压缩技术，有效平衡了存储效率与读取性能。

特点

该数据集在声学信号处理领域展现出鲜明的技术特征。其核心特征在于直接内嵌音频数据，采样率为44.1kHz，同时精确标注了每条音频片段的起始时间、结束时间及持续时间。每条数据还附有采集年份和水听器标识信息，为时序分析与设备特异性研究提供了结构化支持。数据集包含28,410条训练样本与3,370条验证样本，总规模约72GB，经过精心清理去除了特定微调任务的冗余片段，从而提升了数据的纯净度与任务针对性。

使用方法

对于致力于海洋哺乳动物声学识别或通用音频表征学习的研究者而言，该数据集提供了便捷的应用路径。用户可通过加载默认配置直接访问训练集与验证集，其Parquet分片格式兼容主流数据处理框架。在模型训练过程中，建议依据音频时间戳与元数据信息进行有针对性的特征提取或数据筛选。由于数据已进行确定性分割，研究者可在相同种子下复现实验划分，确保实验过程的一致性与可比性，进而支撑声学事件检测或跨年份声学模式分析等下游任务。

背景与挑战

背景概述

NewPretraining数据集作为海洋生物声学领域的重要资源，其构建源于对海豚等海洋哺乳动物声学行为的深入研究需求。该数据集由专业研究团队基于前期工作`dolphinteam/Dolphin-Pretraining-clean-year-hydro`优化而成，旨在提供高质量、无重叠的音频样本以支持声学模型的预训练。其核心研究问题聚焦于如何利用大规模水下录音数据，提升对海洋生物声音信号的自动识别与分类能力，从而推动海洋生态监测与保护技术的发展。该数据集通过精确的时间标注、采样率标准化及设备信息记录，为声学模型训练提供了结构化基础，对促进计算海洋生物学与声学人工智能的交叉融合具有显著影响力。

当前挑战

在海洋生物声学领域，自动识别水下声音信号面临诸多挑战，包括环境噪声干扰、声波在水介质中的传播畸变以及不同物种声音特征的相似性等。NewPretraining数据集针对这些挑战，致力于解决声学事件检测与分类的准确性难题。在构建过程中，数据集面临数据清洗的复杂性，需从原始录音中剔除与特定任务（如哨声微调数据集）重叠的片段，以确保样本独立性。同时，处理大规模嵌入式音频数据时，需平衡存储效率与读取性能，采用SNAPPY压缩技术优化音频列，并设计确定性的分割策略以维持数据划分的可复现性，这些技术细节均增加了数据集构建的工程难度。

常用场景

经典使用场景

在海洋生物声学研究中，NewPretraining数据集为声学模型的预训练提供了关键支持。该数据集包含大量高质量的水下音频片段，采样率为44.1kHz，覆盖了不同年份和不同水听器采集的声学信号。研究人员利用这些数据训练深度学习模型，以识别和分类海洋哺乳动物（如海豚）的叫声模式，从而为后续的精细任务（如哨声检测）奠定基础。

解决学术问题

该数据集解决了海洋声学领域数据稀缺和噪声干扰的学术难题。通过提供清洁且标注时间戳的音频片段，它支持声学事件检测、物种识别和声学环境监测等研究。其确定性分割策略确保了实验的可重复性，而移除与微调数据集重叠的片段则避免了数据泄露，提升了模型泛化能力，对推动水下声学信号处理技术的发展具有深远意义。

衍生相关工作

围绕NewPretraining数据集，衍生出多项经典研究工作。例如，基于其预训练的特征提取器被用于哨声检测和分类任务，提升了模型在复杂水下环境中的鲁棒性。同时，该数据集促进了跨年份声学模式分析的研究，探索气候变化对海洋生物声学行为的影响，进一步推动了多模态声学数据融合与迁移学习框架的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集