frugalaichallenge
收藏RFCx Chainsaw Audio 数据集
数据集描述
数据集概述
RFCx Chainsaw Audio 数据集包含大量不同距离的链锯音频片段。数据来源于 Rainforest Connection 部署的 Guardian 设备,用于检测非法砍伐。大部分录音来自南美洲或东南亚,这些地区有大量的 Rainforest Connection 项目。
支持的任务和排行榜
待定(TBC)
数据集结构
数据实例
每个音频片段时长为 3 秒,每个样本被标记为 chainsaw(值 0,表示识别出链锯)或 environment(值 1,表示不包含链锯)。
示例: json { "audio": { "path": "aoos_2021_02a16dd4-c788-4bbb-bc3d-e2f8322fe4b2_0-3.wav", "array": [4.84344482e-01, 4.54193115e-01, 2.53906250e-02, ..., 2.44140625e-04, 3.05175781e-05, 9.15527344e-04], "sampling_rate": 12000 }, "label": 0 }
数据字段
audio.path:音频文件的文件名audio.array:音频的原始波形audio.sampling_rate:音频的采样率label:链锯0或环境1
数据划分
数据集分为 train 和 test 两部分。
数据集创建
数据集创建理由
该数据集旨在训练一个可以在森林设备上运行的模型,实时检测非法砍伐。设备会将消息发送给地面上的护林员以进行干预。
源数据
数据来自 2015 年至 2022 年间部署的 Guardian 设备。音频通常以 12kHz 的采样率录制,并以 opus 格式(有损压缩)保存,然后通过 EDGE 或 3G 网络上传到云端。
标注
标注过程
在部署 Guardian 设备的地方,负责监控警报的护林员和现场团队可以通过移动 Guardian 应用程序或 Guardian 仪表板 Web 应用程序确认和拒绝检测到的链锯。
标注者
标注者为 Rainforest Connection 的现场团队和合作伙伴。
个人和敏感信息
源数据通常来自森林深处,设备位于森林树冠的高处,因此人类声音极为罕见。在现有数据集中发现的人类声音样本已被移除。
获取数据集
示例: python !pip install librosa soundfile datasets from datasets import load_dataset dataset = load_dataset("rfcx/frugalaichallenge", streaming=True) print(next(iter(dataset[train])))
附加信息
许可信息
该数据集根据 CC BY-NC 4.0 许可证提供。




