mikulrai/coral-reef-bioacoustics
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mikulrai/coral-reef-bioacoustics
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- audio-classification
tags:
- bioacoustics
- coral-reef
- ecology
- surfperch
- underwater-acoustics
- marine-biology
size_categories:
- n<1K
language:
- en
pretty_name: Coral Reef Bioacoustics (Moreton Bay)
---
# Coral Reef Bioacoustics Dataset
Underwater audio recordings from two contrasting coral reef sites in **Moreton Bay, Queensland, Australia**, labeled for binary reef health classification.
## Dataset Description
This dataset contains 19 WAV recordings captured using a **Cetacean Research Technology CRT-40P hydrophone** (48 kHz / 24-bit) deployed 0.5-1 m above the seafloor in November 2025. The recordings capture the natural soundscape of sub-tropical turbid reefs, including invertebrate activity (snapping shrimp), fish vocalizations, and ambient noise.
### Sites
| Site | Label | Coral Cover | Description |
|------|-------|------------|-------------|
| **Myora Reef** | Healthy | ~23-42% | Acropora-dominated reef benefiting from oceanic flushing |
| **Goat Island** | Degraded | Low | Sediment-impacted reef damaged by 2022 flood events and riverine runoff |
### Statistics
- **Total recordings:** 19 WAV files
- **Healthy (Myora Reef):** 11 files (~349 MB, ~50.8 min)
- **Degraded (Goat Island):** 8 files (~220 MB, ~30.0 min)
- **Format:** WAV, 48 kHz, 24-bit, mono
- **Total duration:** ~80.8 minutes
## Dataset Structure
```
data/
healthy/
myora_01.WAV ... myora_11.WAV
degraded/
goat_01.WAV ... goat_08.WAV
metadata.csv
```
## Usage
This dataset is designed for use with Google's [SurfPerch](https://github.com/google-research/perch) bioacoustic foundation model. Audio segments are typically processed as 5-second non-overlapping windows at 32 kHz.
```python
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="mikulrai/coral-reef-bioacoustics",
repo_type="dataset",
local_dir="./reef_audio",
)
```
## Citation
If you use this dataset, please cite:
> Mikul Rai. "Classification of Sub-tropical Reef Health using Bioacoustic Embeddings." 2025.
## License
This dataset is released under the [Creative Commons Attribution 4.0 International License](https://creativecommons.org/licenses/by/4.0/).
---
许可协议:知识共享署名4.0(CC BY 4.0)
任务类别:
- 音频分类(audio-classification)
标签:
- 生物声学(bioacoustics)
- 珊瑚礁
- 生态学
- 海鲫(surfperch)
- 水下声学(underwater acoustics)
- 海洋生物学(marine-biology)
样本规模类别:
- n<1000
语言:
- 英文(en)
展示名称:莫顿湾珊瑚礁生物声学数据集
---
# 珊瑚礁生物声学数据集
本数据集包含来自澳大利亚昆士兰州莫顿湾两处对比鲜明的珊瑚礁点位的水下音频录音,标注用于二分类珊瑚礁健康状态识别任务。
## 数据集说明
本数据集包含19条WAV格式音频录音,由鲸类研究技术公司(Cetacean Research Technology)的CRT-40P水听器(hydrophone)采集,采集参数为48 kHz采样率、24-bit位深度,部署于海床上方0.5至1米处,采集时间为2025年11月。录音记录了亚热带浊水珊瑚礁的自然声景,涵盖无脊椎动物活动(如鼓虾)、鱼类发声以及环境噪声。
### 采样点位
| 点位名称 | 健康标签 | 珊瑚覆盖率 | 点位描述 |
|--------|--------|----------|--------|
| **迈奥拉礁(Myora Reef)** | 健康 | 约23%-42% | 以轴孔珊瑚(Acropora)为主的礁体,受益于海洋水交换 |
| **山羊岛(Goat Island)** | 退化 | 较低 | 受沉积物影响的礁体,因2022年洪水事件与河流径流遭受破坏 |
### 统计信息
- **总录音数:** 19个WAV文件
- **健康组(迈奥拉礁):** 11个文件(约349 MB,时长约50.8分钟)
- **退化组(山羊岛):** 8个文件(约220 MB,时长约30.0分钟)
- **音频格式:** WAV,48 kHz采样率,24-bit位深度,单声道
- **总时长:** 约80.8分钟
## 数据集组织结构
data/
healthy/
myora_01.WAV ... myora_11.WAV
degraded/
goat_01.WAV ... goat_08.WAV
metadata.csv
## 使用方法
本数据集专为配合谷歌(Google)的[SurfPerch](https://github.com/google-research/perch)生物声学基础模型使用而设计。音频片段通常会被处理为32 kHz采样率下的5秒非重叠窗口。
python
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="mikulrai/coral-reef-bioacoustics",
repo_type="dataset",
local_dir="./reef_audio",
)
## 引用方式
若您使用本数据集,请引用以下文献:
> 米库尔·莱(Mikul Rai). 《基于生物声学嵌入的亚热带礁体健康状态分类》. 2025.
## 许可协议
本数据集采用[知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)](https://creativecommons.org/licenses/by/4.0/)进行发布。
提供机构:
mikulrai
搜集汇总
数据集介绍

构建方式
在珊瑚礁生物声学领域,数据集的构建依赖于实地采集的高质量水下录音。研究人员于2025年11月,在澳大利亚昆士兰莫顿湾两个对比鲜明的珊瑚礁站点——米奥拉礁和山羊岛,使用CRT-40P水听器进行部署,设备置于海床上方0.5至1米处,以48 kHz采样率和24位深度录制了19段WAV格式的单声道音频。这些录音捕捉了包括无脊椎动物活动、鱼类发声及环境噪声在内的自然声景,并根据站点珊瑚覆盖率标注为健康或退化类别,形成了结构清晰的目录体系。
特点
该数据集的核心特点在于其专注于亚热带浑浊珊瑚礁的声学环境,提供了健康与退化礁体的直接对比。音频数据总计约80.8分钟,包含11段健康礁体录音和8段退化礁体录音,所有文件均以高保真的WAV格式保存,确保了声学特征的完整性。数据集规模虽小但标注明确,紧密贴合生态健康评估的应用需求,为生物声学模型训练提供了精准的二元分类基础。
使用方法
该数据集主要适配于Google SurfPerch生物声学基础模型,用于珊瑚礁健康状态的分类研究。典型使用流程涉及将音频分割为5秒非重叠窗口,并重采样至32 kHz进行处理。用户可通过Hugging Face Hub便捷下载整个数据集,按照预设的健康与退化目录结构加载音频文件,进而提取声学嵌入特征或训练分类器,以探索声景与礁体生态状况之间的关联。
背景与挑战
背景概述
海洋生物声学作为生态监测的前沿领域,通过水下声景分析揭示珊瑚礁生态系统的健康状况。该数据集由研究人员Mikul Rai于2025年创建,聚焦澳大利亚昆士兰州莫顿湾两个对比鲜明的珊瑚礁站点——以轴孔珊瑚为主导、珊瑚覆盖率达23-42%的迈奥拉礁,以及受沉积物影响、珊瑚覆盖率极低的山羊岛。核心研究问题在于利用生物声学特征实现珊瑚礁健康的二元分类,为受气候变化与人类活动威胁的珊瑚礁生态系统提供非侵入式监测方案,推动了计算生态学与保护生物学的交叉融合。
当前挑战
该数据集旨在解决珊瑚礁健康声学分类的挑战,包括如何在复杂水下声景中有效分离生物声信号与环境噪声,以及如何建立声学特征与生态健康指标之间的稳健关联。在构建过程中,研究人员面临实地数据采集的困难:水下声学设备需在浑浊水域中稳定部署,同时需克服潮汐流动与船舶噪声的干扰;数据规模受限于珊瑚礁声景的时空异质性,仅能获取有限时长的录音,这要求后续分析方法必须具备处理小样本与高维度声学特征的能力。
常用场景
经典使用场景
在海洋生态监测领域,珊瑚礁生物声学数据集为评估珊瑚礁健康状况提供了关键数据支持。该数据集通过采集澳大利亚莫顿湾两个对比鲜明的珊瑚礁站点的水下音频记录,包含健康与退化两类标签,常用于训练和验证生物声学分类模型。研究人员利用这些音频片段,提取声学特征以识别珊瑚礁生态系统的声景差异,进而实现基于声学信号的自动化健康评估,为生态监测提供了一种非侵入性且高效的技术手段。
解决学术问题
该数据集主要解决了海洋生态学中珊瑚礁健康监测的学术挑战。传统监测方法依赖视觉调查,成本高昂且受限于能见度,而生物声学数据通过捕捉无脊椎动物活动、鱼类发声等声景信息,为量化生态系统状态提供了新维度。数据集支持开发机器学习模型,用于分类珊瑚礁健康状态,推动了声景生态学与计算生态学的交叉研究,有助于理解声学指标与生态恢复力之间的关联,为珊瑚礁保护策略提供了科学依据。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作,其中最具代表性的是与Google SurfPerch生物声学基础模型的集成应用。研究人员利用数据集微调SurfPerch模型,优化其对珊瑚礁声景的分类性能,推动了水下声学人工智能的发展。此外,相关研究扩展至声景指数开发、多站点健康比较分析等领域,促进了生物声学在海洋生态监测中的标准化和普及,为后续更大规模声学数据集的构建提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



