DRONEAUDIOSET

Name: DRONEAUDIOSET
Creator: 新加坡国立大学计算机学院
Published: 2025-10-17 15:33:48
License: 暂无描述

arXiv2025-10-17 更新2025-10-23 收录

下载链接：

https://huggingface.co/datasets/ahlab-drone-project/DroneAudioSet

下载链接

链接失效反馈

官方服务：

资源简介：

DRONEAUDIOSET是一个无人机听觉数据集，包含23.5小时的标注录音，涵盖了从-57.2dB到-2.5dB的广泛信噪比（SNR），跨越各种无人机类型、油门、麦克风配置以及环境。该数据集支持在具有挑战性的条件下开发人类存在检测的噪声抑制和分类方法，同时为无人机听觉系统的实用设计考虑提供信息，例如麦克风放置权衡，以及开发具有无人机噪声意识的音频处理。数据集捕获了源声音与无人机噪声的结合，为广泛的信号噪声比（SNR）提供了广泛的录音，从-57.2dB到-2.5dB。该数据集对于推动无人机听觉和音频AI的研究社区具有重要意义，因为它提供了一个数据集，可以了解在极端噪声条件下听觉场景分析方法的表现。

DRONEAUDIOSET is a drone auditory dataset containing 23.5 hours of annotated audio recordings. It covers a wide range of signal-to-noise ratios (SNR) from -57.2 dB to -2.5 dB, spanning diverse drone types, throttle settings, microphone configurations, and environments. This dataset supports the development of noise suppression and classification methods for human presence detection under challenging conditions, while also providing insights for practical design considerations of drone auditory systems, such as trade-offs in microphone placement, and the development of drone noise-aware audio processing. The dataset captures the combination of source sounds and drone noise, with comprehensive recordings spanning the full SNR range of -57.2 dB to -2.5 dB. DRONEAUDIOSET holds significant value for the research community advancing drone auditory and audio AI research, as it offers a benchmark dataset to evaluate the performance of auditory scene analysis methods under extreme noise conditions.

提供机构：

新加坡国立大学计算机学院

创建时间：

2025-10-17

原始信息汇总

DroneAudioSet 数据集概述

基本信息

许可证: MIT
数据集地址: https://huggingface.co/datasets/ahlab-drone-project/DroneAudioSet

配置结构

1. drone-only 配置

数据文件: 28个训练分割
分割命名: train_001 至 train_028
文件路径模式: drone-only/train_xxx-*

2. drone-with-source 配置

数据文件: 252个训练分割
分割命名: train_001 至 train_252
文件路径模式: drone-with-source/train_xxx-*

3. ground-truth 配置

数据文件: 1个参考分割
分割命名: ref_001
文件路径模式: ground-truth/ref_001-*

4. source-only 配置

数据文件: 40个训练分割
分割命名: train_001 至 train_040
文件路径模式: source-only/train_xxx-*

数据组织特点

所有配置均采用分块存储方式
文件命名遵循统一模式：配置名称/分割名称-*
训练数据分割数量因配置而异

搜集汇总

数据集介绍

构建方式

在无人机听觉系统研究领域，DRONEAUDIOSET采用固定框架安装无人机的实验设计，通过将DJI F450和F330四旋翼无人机牢固固定于铝制框架上，模拟悬停状态下的声学环境。数据采集系统配置了17个麦克风，包括两个8通道圆形阵列分别位于无人机上下方，以及一个中央独立麦克风，覆盖25厘米和50厘米两种安装距离。在三个具有不同混响特性的室内环境中，通过蓝牙扬声器播放经过精心筛选的人类声音和环境声音，系统性地记录了涵盖-57.2dB至-2.5dB信噪比范围的23.5小时高质量音频数据。

使用方法

该数据集支持两阶段无人机听觉系统开发流程：首先进行噪声抑制，可采用传统波束成形与谱门限联合方法、神经网络增强技术或混合策略；随后进行人声检测，利用预训练的音频转换器模型对降噪后的音频进行分类。研究人员可通过配置文件中详细记录的无人机参数、麦克风布局和声源属性，针对特定场景构建定制化处理流程。数据集提供的标准信噪比分组和标注信息，便于系统性能的定量评估与比较分析，为无人机搜索救援系统中的音频处理算法优化提供重要基准。

背景与挑战

背景概述

随着无人机在搜救任务中的广泛应用，传统视觉系统在低能见度环境下的局限性日益凸显。新加坡国立大学增强人类实验室于2025年推出的DRONEAUDIOSET数据集，致力于解决无人机音频感知中的关键问题。该数据集通过系统化采集23.5小时标注音频，覆盖-57.2dB至-2.5dB的信噪比范围，囊括多种无人机型号、油门设置与麦克风配置，为极端噪声环境下的人类存在检测研究提供了重要基础。

当前挑战

该数据集核心挑战在于解决无人机自噪声对音频信号的严重干扰，其宽频转子噪声与人类声音频率重叠导致信噪比低于-10dB。构建过程中需克服动态噪声特性采集难题，包括螺旋桨湍流引起的空间异质噪声、多麦克风阵列的同步校准，以及真实声学交互场景的复现。现有合成数据集无法模拟油门变化引起的转子谐波调制效应，而真实场景数据采集又受限于无人机悬停稳定性与风噪控制。

常用场景

经典使用场景

在无人机搜救任务中，视觉系统常因烟雾、遮挡等低能见度环境失效，音频感知成为关键补充手段。DRONEAUDIOSET通过系统化采集23.5小时真实环境录音，覆盖-57.2dB至-2.5dB的广泛信噪比范围，为噪声抑制与分类算法开发提供了标准测试平台。其多参数配置（无人机型号、油门等级、麦克风阵列）可模拟实际搜救中动态变化的声学场景，尤其适用于极端低信噪比下人类存在声纹的提取与识别研究。

解决学术问题

该数据集攻克了无人机音频研究中 ego-noise 遮蔽效应的核心难题，填补了真实声学交互数据缺失的空白。通过提供多维度标注的声学样本，支持开发鲁棒的噪声抑制模型，解决传统方法在-30dB以下极端信噪比环境中性能骤降的问题。同时为麦克风阵列优化、空间声源定位等基础研究提供实证依据，推动移动平台听觉场景分析理论的完善。

实际应用

在灾害应急响应领域，该数据集支撑的音频检测系统可部署于震后废墟、火灾现场等危险环境，通过识别呼救声、敲击声等人类存在信号提升搜救效率。其衍生的硬件设计指南（如麦克风悬置策略、油门调节方案）已应用于轻型无人机改装，实现声学感知与飞行控制的协同优化。此外，在工业巡检、野生动物监测等领域，该数据集的噪声特征库为移动设备音频处理提供了跨领域迁移可能。

数据集最近研究