five

Bioacoustics datasets

收藏
github2024-08-08 更新2024-08-09 收录
下载链接:
https://github.com/bioacoustic-ai/bioacoustics-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这个仓库收集了在线公开的生物声学数据集,这些数据集可以与深度学习一起使用。该列表旨在提供当前可用于训练和评估模型的数据概览,并计划保持更新。

This repository compiles publicly available online bioacoustic datasets compatible with deep learning applications. This curated list aims to provide an overview of currently accessible data for training and evaluating models, with plans for ongoing updates.
创建时间:
2024-07-16
原始信息汇总

生物声学数据集

简介

本仓库收集了可与深度学习一起使用的在线公开生物声学数据集列表。您可以在以下网址查看此表格:https://bioacoustic-ai.github.io/bioacoustics-datasets/。此列表旨在提供当前可访问数据集的概览,并致力于保持此列表的更新。您可以通过提交拉取请求来添加新数据集。

贡献方式

您可以通过两种方式贡献:

  1. 添加已有数据集的更多信息或添加新数据集。修改现有数据集只需修改其位于 datasets_json 目录中的 json 文件。添加新数据集,请下载名为 dataset_template.json 的文件,并尽可能填写字段。建议至少填写 authorsdescriptionurlversionlicense 字段。
  2. 改进网页应用,通过提出改进建议或在 GitHub 问题中直接实现。

字段描述

以下是按字母顺序排列的每个字段的解释:

字段 描述 示例
additionalDescription 补充信息。
annotationsType 已标注的信息。 "Species, vocalisation type"
captureDevice 用于录制声音的硬件。如果使用了多种设备,请写 "Various"。 "Lavalier microphone"
continent 参见 https://ac.tdwg.org/termlist/#dwc_continent "Europe"
countryCode 国家的 ISO 3166-1 alpha-2 代码。对于州或省,优先使用 ISO 3166-2 标准中定义的代码。 "FR", "CN-AH", ["FR", "CN-AH"]
creators 数据集的作者列表。 [John Doe]
datePublished 数据集版本发布的日期,采用 ISO 8601 格式。 "2021-06-18T06:26:56.891644+00:00", "2021-06-18"
description 数据集的描述。
labellingLevel 数据集是强标注(有精确时间标注)还是弱标注(无时间标注)。 "Strong", "Weak"
license 数据集的分发许可证,可以是名称或链接。 "cc-by-4.0", "https://creativecommons.org/licenses/by/4.0/legalcode"
lifeStage 参见 https://ac.tdwg.org/termlist/#dwc_lifeStage。当前类别包括 Juvenile 和 Adult。 "Adult", "All"
locality 参见 https://ac.tdwg.org/termlist/#dwc_locality。包含特定的地理信息(如果可用)。 "703 nest sites in Wytham Woods, Oxfordshire (51°46 N, 1°20 W)"
minAndMaxRecordingDuration 录音的最小和最大时间长度(以秒为单位)。如果所有录音长度相同,则最小和最大长度写相同值。 "60 - 60"
name 数据集的名称。 "NIPS4Bplus"
numAnnotations 数据集中的标注数量。 598
numAudioFiles 数据集中的音频文件数量。 3403
numClasses 如果适用,数据集中的感兴趣类别数量。 40
numSpecies 数据集针对的物种数量。 23
paperLink 如果适用,介绍数据集的论文链接。 "https://link.to.paper"
physicalSetting 参见 https://ac.tdwg.org/termlist/#ac_physicalSetting。 "Natural", "Artificial"
provider 提供数据集的机构。
recordingPeriod 数据记录的时间段。 "late March to mid-May during the breeding seasons of 2020 from 5 to 7 AM each day."
recordingType 描述录音是由编辑过的片段组成,还是连续的。受限词汇,选项为 Clips 或 Continuous。 "Clips"
sampleRate 数据记录的采样率,以 kHz 为单位。 48.0
sizeInGb 数据集的大小,以 GB 为单位。 10.2
taxonomicClass 数据集中物种的分类学类别。 "Aves"
totalDuration 整个数据集的时长,以小时为单位。 7.8
url 数据集的链接。 "https://link.to.dataset"
version 数据集的版本。 5
搜集汇总
数据集介绍
main_image_url
构建方式
生物声学数据集的构建主要依赖于从公开可用的在线资源中收集和整理数据。这些数据集通常由研究人员和机构通过特定的录音设备在自然或人工环境中采集,涵盖多种物种和地理区域。数据集的构建过程中,关键步骤包括数据的采集、标注、分类和存储。标注过程涉及对音频文件进行详细的注释,如物种、发声类型、录音设备、地理位置等。此外,数据集的构建还遵循一定的标准化流程,以确保数据的质量和一致性。
特点
生物声学数据集的主要特点在于其多样性和详细性。这些数据集不仅涵盖了多种物种和地理区域,还包含了丰富的音频特征,如采样率、录音时长、标注级别等。此外,数据集的构建过程中采用了严格的标注和分类标准,确保了数据的高质量和可用性。数据集的多样性使其适用于多种生物声学研究,包括物种识别、行为分析和生态监测等。
使用方法
生物声学数据集的使用方法主要包括数据下载、预处理和模型训练。用户可以通过提供的URL链接下载数据集,并根据需要进行数据清洗和预处理。数据集的预处理步骤可能包括音频文件的分割、标准化和特征提取。随后,用户可以使用这些数据集来训练和评估深度学习模型,以实现物种识别、行为分类等任务。数据集的详细标注信息和标准化格式使得模型训练过程更加高效和准确。
背景与挑战
背景概述
生物声学数据集(Bioacoustics datasets)是由一群专注于生物声学与深度学习结合的研究者们创建的,旨在收集和整理可用于训练深度学习模型的公开生物声学数据集。这些数据集的创建时间跨度较大,主要研究人员和机构包括Justin Salamon、LILA科学网站、Tessa Rhinehart等。核心研究问题集中在如何利用声学数据进行物种识别、行为分析等,对生物多样性研究和保护具有重要影响。该数据集的构建不仅为生物声学领域提供了丰富的资源,也为深度学习在生态学中的应用开辟了新的路径。
当前挑战
生物声学数据集在构建过程中面临多重挑战。首先,数据集的多样性要求涵盖不同物种、不同环境下的声学数据,这增加了数据采集和标注的复杂性。其次,声学数据的特性,如背景噪声、录音设备的差异等,对数据的质量和一致性提出了高要求。此外,数据集的更新和维护也是一个持续的挑战,需要不断整合新的数据和研究成果,以保持其时效性和应用价值。这些挑战不仅影响了数据集的构建效率,也对其在实际应用中的效果产生了深远影响。
常用场景
经典使用场景
在生物声学领域,Bioacoustics datasets 数据集的经典使用场景主要集中在深度学习模型的训练与评估。该数据集汇集了多种公开可用的生物声学数据,涵盖了从鸟类到哺乳动物的广泛物种。研究者可以利用这些数据进行声音识别、物种分类以及个体识别等任务。通过这些数据,模型能够学习到不同物种的声学特征,从而在实际应用中实现高效的生物监测和保护。
实际应用
在实际应用中,Bioacoustics datasets 数据集被广泛用于野生动物监测和生态保护项目。例如,环保组织和研究机构可以利用这些数据来监测濒危物种的分布和活动,评估生态系统的健康状况。此外,该数据集还支持了智能音频设备的开发,这些设备能够在自然环境中自动识别和记录动物声音,从而提高监测效率和准确性。通过这些应用,Bioacoustics datasets 数据集在推动生物多样性保护和生态研究方面发挥了重要作用。
衍生相关工作
Bioacoustics datasets 数据集的发布催生了多项相关研究工作。例如,基于该数据集的深度学习模型在声音识别和分类任务中取得了显著进展,推动了生物声学技术的应用。此外,研究者们还利用这些数据进行了跨物种声音比较研究,揭示了不同物种声音特征的共性和差异。这些研究不仅丰富了生物声学的理论基础,还为实际应用提供了新的方法和工具。通过这些衍生工作,Bioacoustics datasets 数据集在学术界和应用领域都产生了深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作