LARGE-SCALE DATASET WITH DIVERSE AUDIO EVENTS

Name: LARGE-SCALE DATASET WITH DIVERSE AUDIO EVENTS
Creator: Adobe Research, Mila - Quebec AI Institute, Universit´e de Montr´eal, Massachusetts Institute of Technology, Canada CIFAR AI Chair
Published: 2025-05-08 23:27:43
License: 暂无描述

arXiv2025-05-08 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.05335v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究提出了一种名为FLAM的音频语言模型，旨在进行帧级别的开放词汇语音事件检测。为了实现帧级别的监督，研究人员构建了一个大规模的数据集，其中包含多样化的音频事件、LLM生成的字幕和模拟数据。该数据集通过从文本标记的声学事件中合成10秒的音频混合物来创建，从而自动重新标记事件边界，从而形成了一个包含一百万样本的多样化、开放词汇的语音事件检测示例数据集。该数据集的创建旨在解决现有语音事件检测模型在处理开放词汇事件时的局限性，并提高音频内容搜索和事件检测等应用中的定位能力。

This study proposes an audio language model named FLAM, which is designed for frame-level open-vocabulary speech event detection. To enable frame-level supervision, researchers constructed a large-scale dataset containing diverse audio events, LLM-generated captions, and simulated data. This dataset is created by synthesizing 10-second audio mixtures from text-annotated acoustic events, which automatically relabels event boundaries, thus forming a diverse, open-vocabulary speech event detection example dataset with one million samples. This dataset is developed to address the limitations of existing speech event detection models when handling open-vocabulary events, and improve the localization capability in applications such as audio content search and event detection.

提供机构：

Adobe Research, Mila - Quebec AI Institute, Universit´e de Montr´eal, Massachusetts Institute of Technology, Canada CIFAR AI Chair

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

该数据集通过创新的数据增强流程构建，首先将音频语料库划分为短时声音事件（<10秒）和背景音频（≥10秒）。采用大语言模型（Mixtral）对原始元数据（文件名、标签、描述）进行提示工程，生成2-13字的多样化文本标注。核心构建策略包括：1）随机选取背景音频并混合1-10个声音事件，80%来自专业音效库；2）10%案例中对事件进行分段处理（2-3段）或重复（2-3次）；3）采用-6至30dB的随机响度偏移，并限制最大3个并发事件；4）通过A加权RMS能量分析（-70dB阈值）自动校正事件边界，结合10ms淡入/出处理确保自然过渡。最终生成包含100万样本的10秒音频混合体，每个样本均带有精确的帧级事件标注和多样化文本描述。

使用方法

该数据集专为训练帧级音频-语言对比模型设计，建议使用流程包含三个关键阶段：1）预处理阶段应对音频进行48kHz标准化采样，文本输入统一为小写并截取前77个token；2）训练阶段推荐采用双目标优化策略，联合优化全局对比损失（如InfoNCE）和帧级对比损失（带logit调整的二元交叉熵），其中帧级任务需处理32维时间序列嵌入；3）推理阶段可通过计算σ(log p(y|x,l)/p(y))获得校准后的帧级事件概率。针对计算效率，可采用分块训练策略——将批量数据分散至多GPU，通过环形通信聚合梯度。该数据集同时支持传统封闭集SED任务和开放词汇检索任务的联合训练，实验表明设置γSED=200能有效平衡两类任务性能。

背景与挑战

背景概述

LARGE-SCALE DATASET WITH DIVERSE AUDIO EVENTS是FLAM（Frame-Wise Language-Audio Modeling）研究中构建的一个大规模音频事件数据集，旨在解决开放词汇声音事件检测（SED）中的细粒度标注问题。该数据集由Adobe Research、Mila - Quebec AI Institute等机构的研究团队于2025年提出，通过合成音频混合和自动标注技术，构建了包含一百万样本的多样化音频事件数据集。其核心研究问题在于如何实现音频帧与文本描述之间的精确时间对齐，以支持开放词汇的声音事件定位。该数据集通过整合专业音效库和公开音频资源，并利用大型语言模型生成标注，显著提升了音频-语言模型在细粒度事件检测方面的性能，为多模态音频理解领域提供了重要的基准资源。

当前挑战

该数据集主要面临两大挑战：领域问题方面，传统声音事件检测模型受限于预定义类别，难以应对开放词汇场景中的分布外事件，而现有音频-语言模型虽支持开放词汇检索，但缺乏精确的时间定位能力；构建过程方面，帧级音频-文本标注数据极度稀缺，人工标注成本高昂，且真实音频常包含多个重叠事件与背景噪声，导致标注一致性难以保证。此外，数据合成过程中需平衡事件多样性、时长分布与声学真实性，同时解决标签不平衡带来的模型偏差问题。这些挑战促使研究者开发了创新的数据增强流程和去偏训练策略，以构建具有精确时间边界的大规模训练数据。

常用场景

经典使用场景

在音频信号处理领域，LARGE-SCALE DATASET WITH DIVERSE AUDIO EVENTS数据集通过其丰富的音频事件标注和LLM生成的文本描述，为音频-语言对比学习模型提供了关键的训练资源。该数据集特别适用于训练能够精确定位音频事件时间边界的模型，如FLAM框架所示。通过合成音频混合物的方法，数据集生成了大量具有精确事件边界的样本，使得模型能够在开放词汇环境下进行声音事件检测，从而解决了传统声音事件检测模型在预定义类别之外的局限性。

解决学术问题

该数据集显著推进了开放词汇声音事件检测的研究，解决了传统模型在非分布事件检测上的不足。通过提供大规模的帧级标注数据，它使得模型能够学习到细粒度的音频-文本对齐，从而在无需预定义类别的情况下检测和定位声音事件。此外，数据集还通过合成数据的方法缓解了音频帧级标注稀缺的问题，为音频领域的多模态学习提供了新的研究方向和实验基础。

实际应用

在实际应用中，LARGE-SCALE DATASET WITH DIVERSE AUDIO EVENTS数据集支持了多种音频处理任务，如音频内容搜索、声音事件检测和多媒体检索。例如，在智能家居系统中，该数据集训练的模型可以准确识别和定位环境中的声音事件，如门铃声或烟雾报警声，从而提升系统的响应速度和准确性。此外，数据集还可用于开发辅助技术，帮助听觉障碍者通过文本描述理解周围的声音环境。

数据集最近研究