ECOSoundSet
收藏arXiv2025-04-29 更新2025-05-01 收录
下载链接:
https://zenodo.org/record/5016223#.Y7c7A9bMKhE
下载链接
链接失效反馈官方服务:
资源简介:
ECOSoundSet数据集是一个包含来自欧洲北部、中部和温带西部地区200种直翅目和24种蝉类(217和26种亚种)的10,653个录音的精细标注数据集。该数据集由两部分组成:粗略标注录音和精细标注录音。粗略标注录音中,我们只能推断目标物种在频谱图中的某个时刻存在;而精细标注录音中,我们则知道录音中每种昆虫声音的确切时间和频率范围。我们还提供了精细标注录音的训练/验证/测试分割,分别占大约80%、10%和10%,以便于将其纳入深度学习算法的训练和评估中。该数据集的创建是为了解决当前欧洲昆虫种群数量和多样性下降的问题,旨在利用被动声学监测技术,通过远程捕获如摩擦声、鼓膜振动和翅膀拍打等声音,实现对声音产生昆虫种群和社区的大规模监测。
The ECOSoundSet dataset is a finely annotated collection of 10,653 recordings, covering 200 species of Orthoptera (with 217 subspecies) and 24 species of cicadas (with 26 subspecies) from northern, central, and temperate western Europe. This dataset consists of two subsets: coarsely annotated recordings and finely annotated recordings. For coarsely annotated recordings, we can only infer the presence of the target species at a certain point in the spectrogram; for finely annotated recordings, we know the exact temporal and frequency ranges of each insect's sounds within the recording. We also provide train/validation/test splits for the finely annotated recordings, which account for approximately 80%, 10%, and 10% of the subset respectively, to facilitate the training and evaluation of deep learning algorithms. This dataset was developed to address the ongoing decline in insect population sizes and biodiversity across Europe, with the goal of enabling large-scale monitoring of sound-producing insect populations and communities via passive acoustic monitoring technology, which remotely captures sounds such as stridulation, tympanal vibrations, and wing beats.
提供机构:
Station d’Écologie Théorique et Expérimentale (SETE, CNRS), France
创建时间:
2025-04-29
搜集汇总
数据集介绍

构建方式
ECOSoundSet数据集通过结合针对性野外采集和欧洲昆虫学家的贡献,构建了一个包含10,653条录音的数据集,涵盖北、中欧及温带西欧地区的200种直翅目昆虫和24种蝉类。数据采集采用多种设备,包括Zoom H4n录音机、AudioMoth和Song Meter记录仪,确保了数据的多样性和广泛性。录音分为粗标注(弱标注)和细标注(强标注)两类,强标注提供了昆虫声音的精确时间和频率范围。数据集还提供了训练/验证/测试集的划分,比例为0.8:0.1:0.1,以支持深度学习算法的开发和评估。
特点
ECOSoundSet数据集的特点在于其广泛的地理覆盖和多样化的录音类型,涵盖了90%的直翅目昆虫和100%的蝉类物种。数据集结合了弱标注和强标注,强标注部分提供了精确的声学特征标注,有助于算法识别复杂的声学特征。此外,数据集还包含了丰富的元数据,如录音日期、地点、天气条件等,为生态学研究提供了重要背景信息。数据集的多样性和标注质量使其成为昆虫声学识别研究的重要资源。
使用方法
ECOSoundSet数据集可用于训练和评估深度学习算法,特别是在昆虫声学识别领域。研究人员可以利用提供的训练/验证/测试集划分,快速构建和测试模型。数据集中的强标注部分可用于精确识别昆虫声音的时间和频率特征,而弱标注部分则适用于大规模数据训练。此外,数据集还可用于研究昆虫声学的生态学特征,如声学活动模式及其与环境因素的关系。数据集的所有录音和标注均可通过Zenodo仓库获取,便于研究人员灵活使用。
背景与挑战
背景概述
ECOSoundSet是由欧洲多个研究机构合作创建的一个专注于欧洲北部、中部和温带西部地区直翅目(Orthoptera)和蝉科(Cicadidae)昆虫声音识别的数据集。该数据集创建于2025年,主要研究人员包括David Funosas、Elodie Massol等来自法国、德国、瑞士等国的科学家。数据集的核心研究问题是通过被动声学监测(PAM)技术,解决欧洲昆虫种群数量下降的监测难题。ECOSoundSet包含10,653条录音,涵盖200种直翅目和24种蝉科昆虫,为深度学习算法提供了丰富的训练数据,推动了昆虫声学识别技术的发展。
当前挑战
ECOSoundSet面临的挑战主要包括两个方面:1) 领域问题的挑战:欧洲昆虫声学识别工具的缺乏,特别是针对多种昆虫声音的自动化识别算法尚不成熟,数据集需解决跨上下文识别复杂声学特征的难题;2) 构建过程的挑战:数据收集的时空分布不均,主要集中在法国南部和加泰罗尼亚地区,可能导致算法对局部声学特征的过拟合。此外,录音设备的多样性和采样频率的差异增加了高频昆虫声音识别的难度,而声景录音与焦点录音之间的信号噪声差异也影响了算法的泛化能力。
常用场景
经典使用场景
ECOSoundSet数据集在生物声学与生态监测领域具有重要应用价值,其精细标注的欧洲直翅目与蝉科昆虫声学数据,为深度学习算法训练提供了关键支持。该数据集通过结合弱标注(仅记录目标物种存在)与强标注(精确标记声学事件时空特征)的双重标注策略,尤其适用于跨场景昆虫声纹识别模型的开发。在典型使用场景中,研究者可利用其提供的训练集/验证集/测试集划分(8:1:1比例),开展声学分类模型的迁移学习与性能评估,显著提升对自然声景中昆虫声音的自动检测精度。
解决学术问题
ECOSoundSet有效解决了欧洲昆虫声学监测中的核心学术难题。针对当前昆虫多样性衰退研究的迫切需求,数据集覆盖北、中欧及温带西欧地区224种发声昆虫(200种直翅目+24种蝉科),填补了该区域缺乏标准化声学基准数据的空白。其强标注数据特别有助于解决声景中多物种重叠发声的识别困境,而地理与环境变量的元数据则支持声学表型可塑性研究。通过提供时空独立的测试集划分,该数据集为评估模型在真实野外环境中的泛化能力建立了严谨框架。
衍生相关工作
ECOSoundSet已催生多项创新研究:Faiß等人基于该数据集开发了全球规模最大的开放昆虫声学数据集InsectSet459;Triantafyllopoulos团队利用其强标注特性改进了时频域注意力机制在声景分类中的应用;Barbaro等将昆虫声学指标与鸟类群落数据耦合,建立了生态系统健康的多维度评估模型。数据集配套的自动化元数据提取脚本(GitHub开源)更成为欧洲生物声学数据标准化的参考工具。
以上内容由遇见数据集搜集并总结生成



