Batear Datasets
收藏github2026-04-30 更新2026-05-01 收录
下载链接:
https://github.com/batear-io/batear-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个专门为嵌入式系统(如ESP32-S3)上的无人机检测、信号分类和生物声学干扰分析设计的声学数据集集合。该数据集旨在优化信噪比阈值、验证数字抗混叠和高通滤波器设计,并区分机械谐波(无人机)和自然高频信号(如蝙蝠回声定位)。
This acoustic dataset collection is specially designed for drone detection, signal classification, and bioacoustic interference analysis on embedded systems such as ESP32-S3. It aims to optimize signal-to-noise ratio (SNR) thresholds, validate the design of digital anti-aliasing and high-pass filters, and distinguish between mechanical harmonics from drones and natural high-frequency signals such as bat echolocation.
创建时间:
2026-04-02
原始信息汇总
Batear Datasets 数据集概述
该数据集是一个专门为无人机检测、信号分类和生物声学干扰分析设计的声学数据集集合,目标运行环境为受限嵌入式系统(如 ESP32-S3)。
项目目标
该数据集作为验证数字信号处理(DSP)算法的标准化基准,提供真实世界的“脏”音频样本,旨在:
- 优化信噪比阈值:提升微多普勒和电机特征的信噪比检测能力。
- 滤波器验证:验证针对低采样率(16kHz)推理的数字抗混叠和高通滤波器设计。
- 特征区分:区分机械谐波(无人机)与自然高频信号(如蝙蝠回声定位)。
目录结构
数据集以可扩展和机器可读的方式组织:
| 目录 | 说明 |
|---|---|
field-tests/ |
真实世界录音(无人机飞行、户外环境音) |
└── DJI/mavic/ |
大疆 Mavic Pro/Air 电机噪声 |
└── esp32-s3-onboard/ |
直接从 Batear 节点捕获的样本 |
└── ambient/ |
无无人机的环境负样本 |
└── urban/ |
城市交通、HVAC、行人噪声 |
└── rural/ |
风声、昆虫、鸟鸣 |
└── bat-sites/ |
蝙蝠回声定位及夜间野生动物 |
synthetic/ |
用于 DSP 校准和单元测试的纯频率信号 |
└── sine-sweeps/ |
10Hz 至 100kHz 线性/对数扫频 |
metadata/ |
数据集清单和标注 |
└── samples.json |
主注册表(采样率、位深、时间戳) |
tools/ |
自动化和数据工程脚本 |
关键数据格式与要求
- 音频格式:WAV(首选 16-bit PCM)
- 最低采样率:44.1 kHz
- 文件名规范:
YYYYMMDD_HHMMSS.WAV(UTC 时间戳) - 所有音频文件在
metadata/samples.json中注册,包含采样率、位深、时长和标签
可用工具脚本
| 工具 | 功能 | 使用场景 |
|---|---|---|
tools/resample.py |
批量降采样至生产目标(默认16kHz) | 添加新录音后匹配推理采样率;测试不同采样率下的 DSP 滤波器性能 |
tools/viz_spectrogram.py |
生成梅尔频谱图 PNG 图像 | PR 提交时可视化验证数据;对比无人机与环境录音的频率模式 |
tools/generate_metadata.py |
从音频文件自动生成 samples.json |
管理数据集清单 |
使用方式
bash git clone git@github.com:batear-io/batear-datasets.git cd batear-datasets git lfs pull
依赖安装:
- Python 3.9+
- 运行
pip install -r tools/requirements.txt
贡献指南
添加音频数据
- Fork 仓库并创建功能分支
- 将文件放入正确的子目录:
- 无人机录音 →
field-tests/DJI/<模型>/或field-tests/esp32-s3-onboard/ - 环境负样本 →
field-tests/ambient/{urban,rural,bat-sites}/ - 校准信号 →
synthetic/sine-sweeps/
- 无人机录音 →
- 确保文件符合格式要求(WAV、16-bit PCM、44.1kHz以上、UTC时间戳命名)
- 可选择生成频谱图附在 PR 中
- 提交 PR 后,CI 会自动更新
metadata/samples.json
改进工具
- 在
tools/目录中进行修改 - 测试前安装开发依赖
- 保持提交聚焦,使用描述性分支名称
许可证
该项目采用 MIT 许可证。
搜集汇总
数据集介绍

构建方式
在无人机检测与生物声学干扰分析的前沿领域,Batear Datasets的构建立足于真实世界与合成信号的有机融合。数据来源于实地采集的无人机飞行噪声(如DJI Mavic系列)、ESP32-S3嵌入式节点录制的现场样本,以及城市、乡村和蝙蝠栖息地等多样环境中的背景音频。同时,通过生成10Hz至100kHz的正弦扫描信号,构建了用于数字信号处理校准的合成数据集。所有音频样本以WAV格式存储,遵循统一的元数据注册机制,在metadata/samples.json中记录采样率、位深、时长与标签信息,确保数据组织的规范性与可复现性。
使用方法
使用Batear Datasets时,首选通过Git LFS克隆仓库并拉取音频文件。数据可直接用于嵌入式系统(如ESP32-S3)上的无人机检测与信号分类算法开发,用户根据需求选择field-tests或synthetic子目录下的样本。对于高采样率录音,运行tools/resample.py可批量降采样至16kHz,匹配生产环境推理速率。新增音频数据时,需遵循WAV格式与命名规范,放置于指定目录并通过提交Pull Request贡献;元数据文件samples.json将在合并后自动更新。此外,tools/viz_spectrogram.py支持生成梅尔频谱图,便于可视化验证频率模式与滤波器性能,形成从数据导入到算法调试的完整工作流。
背景与挑战
背景概述
Batear Datasets是由Batear团队构建的一个专用于嵌入式系统(如ESP32-S3)上无人机检测、信号分类与生物声学干扰分析的声学数据集。该数据集创建于近期的开源项目周期内,旨在解决低成本、低功耗设备上实时音频处理的核心难题。核心研究问题聚焦于如何利用数字信号处理算法在低采样率(16kHz)条件下,从复杂真实环境中提取无人机的微多普勒与电机特征,同时排除蝙蝠回声定位等自然高频信号的干扰。作为标准化基准,该数据集为优化信噪比阈值、验证抗混叠与高通滤波器设计以及区分机械谐波与生物声学信号提供了宝贵资源,对嵌入式听觉智能领域具有重要推动作用。
当前挑战
该数据集面临的挑战主要体现在两个层面。在领域问题层面,需解决在约束性嵌入式硬件(如ESP32-S3)上实现高精度无人机检测,这要求算法能够在低信噪比和多种环境噪声(城市交通、乡村风鸣、昆虫鸟鸣)中稳定识别无人机声学特征,并有效区分电机谐波与蝙蝠回声定位等生物声学干扰。在数据构建层面,挑战包括:采集真实场景中无人机飞行与非目标环境音频,确保样本的多样性与代表性;统一不同来源音频的采样率(如将44.1kHz或48kHz降采样至16kHz)以匹配后端推理要求;以及建立标准化的元数据管理系统,实现样本的自动注册与质量控制,这一过程涉及多源数据融合、标签一致性维护及大规模文件版本控制(通过Git LFS)等技术难题。
常用场景
经典使用场景
在无人机探测与声学信号处理领域,Batear Datasets 被广泛用作嵌入式系统上数字信号处理算法的标准化基准。研究者常利用该数据集的现场录音与合成信号,验证低采样率(16kHz)下抗混叠滤波器与高通滤波器的设计有效性,并优化微多普勒与电机特征的信噪比检测阈值。其精细的目录结构按无人机型号、环境背景(城市、乡村、蝙蝠栖息地)分类,使得特征判别实验(如区分机械谐波与自然高频信号)得以系统化开展。
解决学术问题
该数据集有效解决了资源受限平台上无人机声学探测的三大核心学术难题:一是缺乏真实环境下‘脏数据’的标准化评测基准,导致算法泛化能力难以量化;二是低采样率推理时滤波器设计缺乏实况验证手段,易产生混叠误差;三是机械噪声与生物声学干扰(如蝙蝠回声定位)的区分度不足,制约分类精度。通过提供同步标注的现场样本与合成标定信号,Batear Datasets 填补了嵌入式声学探测从理论到工程验证之间的方法论空白,推动了低功耗边缘计算场景下鲁棒信号处理架构的演进。
实际应用
在实际部署中,该数据集直接服务于基于ESP32-S3等微控制器的无人机监视系统开发。工程团队利用其包含城市交通、风噪、鸟类鸣叫及蝙蝠回声定位的负样本集合,训练轻量级分类器以在复杂声景中实时识别无人机入侵。合成正弦扫描信号则用于硬件单元的在线校准与出厂测试,确保不同批次设备间检测一致性。此外,自动化重采样与频谱可视化工具链,显著降低了现场部署前算法适配与调试的工程门槛。
数据集最近研究
最新研究方向
针对嵌入式声学感知系统的低信噪比无人机检测与生物声学干扰鉴别,Batear Datasets聚焦于真实复杂环境中采集的“脏”音频数据,以优化微多普勒与电机谐波信号的SNR阈值,并验证低采样率(16kHz)下抗混叠与高通滤波器的设计效能。该数据集独特地将机械谐波(如无人机旋翼噪声)与自然高频信号(如蝙蝠回声定位)并置,为区分人造与生物声源提供了标准化基准。当前前沿方向集中于利用该资源训练轻量级神经网络,实现对城市与野外场景中无人机的实时分类,并深入探索城市交通、风噪及夜间野生动物等干扰下的鲁棒性特征提取,推动低成本声学物联网节点在安防与生态监测中的实用化演进。
以上内容由遇见数据集搜集并总结生成



