EarthSpeciesProject/synthetic-detect-diarize

Name: EarthSpeciesProject/synthetic-detect-diarize
Creator: EarthSpeciesProject
Published: 2026-05-07 10:37:42
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/EarthSpeciesProject/synthetic-detect-diarize

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成的生物声学数据集，包含10秒的WAV音频和源注释元数据。数据集不包含生成的语言对对话、字幕、问答对或其他data-synth输出。数据集包含1,000,000行数据，分为50个分片，每个分片最多包含20,000行数据。文件包括WebDataset风格的分片和元数据文件，其中分片包含音频和选择表条目，元数据文件包含每个音频文件的信息。选择表包括说话人、信噪比(SNR)、源干和源文件等元数据。

This dataset contains synthetic bioacoustic 10-second WAV audio and source annotation metadata. It does not include generated language-pair conversations, captions, QA pairs, or other `data-synth` outputs. Rows: 1,000,000, Shards: 50, Maximum rows per shard: 20,000. Files include WebDataset-style shards and metadata files, where shards contain audio and selection table entries, and metadata files contain information for each audio file. The selection tables include diarization metadata such as Speaker, SNR (dB), Source Stem, and Source File.

提供机构：

EarthSpeciesProject

搜集汇总

数据集介绍

构建方式

该数据集以10秒时长的合成生物声学WAV音频为核心，配合源注释元数据构建而成。数据总量达100万行，被切分为50个分片，每分片最多容纳2万行。音频与选择表以WebDataset格式存储于`data-20k/train-*.tar`分片中，其中选择表包含说话人、信噪比、源音轨及源文件等详尽的话语分离元数据。此外，`metadata.parquet`文件为每段音频提供唯一标识、音频名称及选择表名称的索引信息，便于检索与管理。

使用方法

用户可通过`data-20k/train-*.tar`分片文件，利用WebDataset加载器高效读取音频与选择表数据，实现流式处理。对于快速索引，`metadata.parquet`可作为元数据入口，按`id`或`audio_name`定位特定音频。该数据集适用于音频分类、音频到音频转换等任务，尤其适合训练基于生物声学的声音事件检测与说话人分离模型。用户可从指定源位置`gs://foundation-model-data/synthetic/synthetic_sed_diarization_16k`获取原始数据。

背景与挑战

背景概述

生物声学领域的研究长期受限于高质量标注数据的匮乏，尤其在复杂声景中同时检测多种声音事件并区分个体发声源（即声源分离与语者日志）的任务上，传统人工标注成本高昂且难以规模化。为应对这一瓶颈，Synthetic Detect Diarize数据集于2026年应运而生，由研究机构基于合成音频生成技术构建，旨在为神经信息处理系统大会（NeurIPS）相关挑战提供标准化基准。该数据集包含100万条10秒时长的合成生物声学WAV音频，并配以精细的源选择表元数据，涵盖语者身份、信噪比、源音轨等关键标注，支撑音频分类与音频到音频的映射任务。其大规模、高仿真的特性迅速成为声学事件检测与语者日志研究的技术试验床，推动了模型在低资源生物声学场景下的泛化能力评估与算法迭代。

当前挑战

该数据集的核心挑战聚焦于生物声学场景中声学事件检测与语者日志任务的精细化建模，尤其在多物种重叠发声、背景噪声动态变化及信噪比分布不均的复杂声学环境下，模型需同时辨识声源类别并追踪其发声起始与结束时间。另一个关键困难在于合成音频与真实生物声学数据之间存在领域迁移问题，合成数据的声学特征分布、背景噪声模型及音色多样性可能与野外录音存在系统性偏差，导致模型在真实场景中性能骤降。构建过程中，为在合成阶段精准模拟不同物种的发声模式、空间位置及声学混响，需在声源分离、音色保真与计算效率间取得平衡；同时，确保100万条音频的元数据一致性（如语者身份准确保留、信噪比精确控制）对数据管线的自动化标注与质量校验提出了严峻考验。

常用场景

经典使用场景

synthetic-detect-diarize数据集专为生物声学领域的音频分析任务而生，其核心应用场景涵盖声音事件检测与说话人日志化两大经典方向。具体而言，研究者可利用该数据集中的合成生物声学音频及其精细的标注元数据（包括说话人标签、信噪比、源音轨信息），训练模型在10秒短音频片段中精准识别并区分不同的生物声学事件。该数据集大规模、高噪声可控的合成属性，使其成为评估和提升模型在复杂环境下的鲁棒性、泛化能力的理想基准，尤其适用于弱监督学习、自监督预训练以及多任务联合建模等前沿研究范式。

解决学术问题

该数据集旨在解决生物声学研究中长期存在的标注数据匮乏且噪声环境难以系统控制的困境。通过合成方式生成百万级别的多样化声学场景，研究者得以系统性地探究信噪比对检测与日志化性能的量化影响，分离并分析不同声源干扰下的区分能力边界。这解决了真实录音中难以独立获取纯净说话人标注与噪声背景的痛点，为开发更鲁棒的声音事件检测模型、说话人日志化系统以及声学事件联合分割与分类方法提供了数据基础，有力推动了该领域从依赖有限真实数据向数据驱动的大规模预训练与可控实验验证的转变。

实际应用

在生态监测领域，该数据集可用于构建自动化的野生动物声纹识别系统，通过训练模型精准区分不同物种的叫声并记录其出现时间与频次，从而替代传统的人工监听方式，显著提升大规模生物多样性调查的效率与准确度。同时，在城市噪声监控场景中，基于该数据集训练的音频分割与日志化模型可用于实时识别车辆鸣笛、施工噪声等事件来源，辅助智能交通管理与环保执法。此外，在安防监控领域，其说话人日志化能力可衍生应用于开放式环境下的目标个体声学轨迹追踪，实现非接触式的身份识别与行为分析。

数据集最近研究