five

frugalaichallenge

收藏
Hugging Face2024-12-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/rfcx/frugalaichallenge
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含大量不同距离下链锯声音的音频剪辑的数据集。数据来源于Rainforest Connection部署的Guardian设备,用于检测非法伐木。大部分录音来自南美洲或东南亚,这些地区有大量的Rainforest Connection项目。每个音频剪辑时长为3秒,标签为`chainsaw`(值为0,表示识别出链锯)或`environment`(值为1,表示不包含链锯)。数据集被分为训练集和测试集,目的是训练一个可以在森林设备上运行的模型,以实时检测非法伐木。
创建时间:
2024-11-26
原始信息汇总

RFCx Chainsaw Audio 数据集

数据集描述

数据集概述

RFCx Chainsaw Audio 数据集包含大量不同距离的链锯音频片段。数据来源于 Rainforest Connection 部署的 Guardian 设备,用于检测非法砍伐。大部分录音来自南美洲或东南亚,这些地区有大量的 Rainforest Connection 项目。

支持的任务和排行榜

待定(TBC)

数据集结构

数据实例

每个音频片段时长为 3 秒,每个样本被标记为 chainsaw(值 0,表示识别出链锯)或 environment(值 1,表示不包含链锯)。

示例: json { "audio": { "path": "aoos_2021_02a16dd4-c788-4bbb-bc3d-e2f8322fe4b2_0-3.wav", "array": [4.84344482e-01, 4.54193115e-01, 2.53906250e-02, ..., 2.44140625e-04, 3.05175781e-05, 9.15527344e-04], "sampling_rate": 12000 }, "label": 0 }

数据字段

  • audio.path:音频文件的文件名
  • audio.array:音频的原始波形
  • audio.sampling_rate:音频的采样率
  • label:链锯 0 或环境 1

数据划分

数据集分为 traintest 两部分。

数据集创建

数据集创建理由

该数据集旨在训练一个可以在森林设备上运行的模型,实时检测非法砍伐。设备会将消息发送给地面上的护林员以进行干预。

源数据

数据来自 2015 年至 2022 年间部署的 Guardian 设备。音频通常以 12kHz 的采样率录制,并以 opus 格式(有损压缩)保存,然后通过 EDGE 或 3G 网络上传到云端。

标注

标注过程

在部署 Guardian 设备的地方,负责监控警报的护林员和现场团队可以通过移动 Guardian 应用程序或 Guardian 仪表板 Web 应用程序确认和拒绝检测到的链锯。

标注者

标注者为 Rainforest Connection 的现场团队和合作伙伴。

个人和敏感信息

源数据通常来自森林深处,设备位于森林树冠的高处,因此人类声音极为罕见。在现有数据集中发现的人类声音样本已被移除。

获取数据集

示例: python !pip install librosa soundfile datasets from datasets import load_dataset dataset = load_dataset("rfcx/frugalaichallenge", streaming=True) print(next(iter(dataset[train])))

附加信息

许可信息

该数据集根据 CC BY-NC 4.0 许可证提供。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Rainforest Connection组织通过部署在森林中的Guardian设备收集,旨在实时检测非法伐木活动。数据集包含了2015年至2022年间在南美洲和东南亚地区录制的音频片段,主要为3秒长的音频文件,采样率为12kHz,并以opus格式存储。这些音频数据经过压缩后通过EDGE或3G网络上传至云端。数据集的标注由现场团队和合作伙伴通过Guardian移动应用或网页仪表盘进行确认和拒绝,确保了标注的准确性和可靠性。
特点
该数据集的主要特点在于其专注于非法伐木检测的实际应用场景,音频数据来源于真实森林环境,具有高度的环境相关性。数据集中的音频片段均为3秒长,采样率为12kHz,标签分为‘chainsaw’和‘environment’两类,分别表示是否包含链锯声音。此外,数据集的构建考虑了隐私保护,确保了音频中极少出现人类声音,进一步增强了数据集的实用性和安全性。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库进行加载和处理。首先,安装必要的依赖库如librosa和soundfile。随后,使用load_dataset函数加载数据集,并可以选择流式加载以节省内存。数据集的音频数据可以直接用于训练和评估模型,标签信息则可用于监督学习任务。更多使用示例和详细信息可参考HuggingFace的音频处理文档。
背景与挑战
背景概述
frugalaichallenge数据集由Rainforest Connection组织创建,旨在通过音频数据识别非法伐木活动。该数据集的核心研究问题是如何利用部署在森林中的Guardian设备实时检测链锯声音,从而及时干预非法伐木行为。数据集的音频片段主要来源于2015年至2022年间在南美洲和东南亚部署的Guardian设备,这些设备通过12kHz的采样率记录音频,并以opus格式压缩后上传至云端。数据集的构建旨在支持实时检测模型,帮助森林管理团队快速响应非法伐木活动,对保护热带雨林具有重要意义。
当前挑战
frugalaichallenge数据集面临的挑战主要集中在音频数据的复杂性和实时检测的需求上。首先,链锯声音在不同距离和环境下的表现差异较大,如何准确区分链锯声音与其他环境噪声是一个技术难题。其次,数据集的构建过程中,音频数据的采集和标注依赖于现场团队的经验,可能存在主观性和误差。此外,实时检测模型需要在资源受限的设备上运行,这对模型的轻量化和高效性提出了更高的要求。
常用场景
经典使用场景
该数据集的经典使用场景主要集中在音频分类任务中,特别是用于区分链锯声音与环境声音。通过训练模型,能够实时检测非法砍伐活动,从而为森林保护提供技术支持。
实际应用
在实际应用中,该数据集被用于训练能够部署在森林中的设备,这些设备能够实时监测并识别链锯声音,从而及时通知护林员进行干预。这种方法在南美洲和东南亚等非法砍伐活动频繁的地区尤为重要。
衍生相关工作
基于该数据集,研究人员开发了多种音频处理和分类算法,用于提高链锯声音的识别精度。此外,该数据集还促进了相关领域的研究,如音频信号处理、机器学习在环境监测中的应用等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作