ghdgfxzfdz/cb-telemetry

Name: ghdgfxzfdz/cb-telemetry
Creator: ghdgfxzfdz
Published: 2026-05-01 17:43:15
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ghdgfxzfdz/cb-telemetry

下载链接

链接失效反馈

官方服务：

资源简介：

CB-Telemetry是一个用于评估长期鸟类声学监测中语义保真度的基准数据集。该数据集包含2012-2024年的专家听音记录、805条专家重叠录音行的评分清单、默认和严格清洁分割的元数据、特征表、表示和检索基线输出、验证和烟雾测试脚本、Croissant元数据以及24个代表性的审阅者音频片段。数据集适用于语义保留评估、源冻结经典瓶颈比较、目标检索诊断等任务，但不适用于帧级鸟类事件检测或全年生态趋势推断。数据集采用CC BY-NC-SA 4.0许可，包含来自J-STAGE Data的专家听音记录和Cyberforest声学数据。

CB-Telemetry is a license-aware benchmark for evaluating semantic fidelity in long-term bird acoustic monitoring. It includes normalized 2012-2024 expert listening records, frozen v1 scored manifests with 805 expert-overlap recording rows, paired Default and Strict-Clean split metadata, frozen feature tables, baseline outputs, validation scripts, Croissant metadata, and 24 representative reviewer audio clips. The dataset is intended for semantic retention evaluation, source-frozen classical bottleneck comparison, and target retrieval diagnostics, but not for frame-level bird-event detection or full-year ecological trend inference. It is distributed under CC BY-NC-SA 4.0 and includes expert listening records from J-STAGE Data and Cyberforest acoustic data.

提供机构：

ghdgfxzfdz

搜集汇总

数据集介绍

构建方式

CB-Telemetry是一个面向长期鸟类声学监测中语义保真度评估的许可感知基准数据集。其构建基于2012至2024年间来自J-STAGE Data的专家听录记录，结合了Cyberforest项目的被动声学监测数据。数据集通过双层架构设计：第一层为冻结的轻量级特征表，包含805条专家重叠的记录行，并配以Default和Strict-Clean两种划分元数据；第二层则允许研究人员从原始音频源重建编码器特征。所有数据经规范化处理后，以冻结的v1版本存档于Zenodo，确保评审和复现的可靠性。

特点

该数据集的核心特点在于其独特的双层可复现性设计。第一层为最小化评估路径，仅依赖CPU和标准Python库，无需GPU或深度学习框架即可复现论文中的指标表。第二层高级路径则支持研究人员重建完整的Cyberforest源音频集或重新生成Perch、BirdNET等编码器特征。数据集包含24个代表性音频样本，覆盖5个站点和S/C/D行为编码，并以RSVQ/PQ/OPQ瓶颈特征表形式提供压缩特征，便于语义保留和检索诊断评估。其许可感知特性通过CC BY-NC-SA 4.0协议明确区分了源音频和元数据的使用边界。

使用方法

CB-Telemetry的使用分为两个层级。在最小化评估路径中，用户可运行`scripts/run_smoke_eval.py`和`scripts/validate_cb_telemetry.py`进行快速验证，或通过`run_release_evaluation.py`结合引导采样复现发布指标。高级路径则需运行`download_audio_recordings.py`下载约60.95 GB的源音频，随后使用外部编码器运行时重建特征。所有特征表位于`features/`目录，分析脚本存放于`scripts/`，而元数据、分割信息及评估报告则分别位于`manifests/`和`evaluation_runs/`中。数据集采用Hugging Face Datasets的`audiofolder`加载方式，支持`load_dataset`直接读取代表性音频样本。

背景与挑战

背景概述

CB-Telemetry是由日本研究者Mutsuyuki UETA、Reiko KUROSAWA与Kaoru SAITO等人在2024年构建的Cyberforest鸟类声学监测基准数据集，旨在评估长时鸟类被动声学监测中语义表征的保真度。该数据集以J-STAGE Data中的专家听音记录为锚点，整合了2012至2024年间经标准化处理的音频元数据，为鸟鸣声的语义检索、特征压缩及表征学习提供了标准化的评价框架。其发布标志着声学生态信息学从单一分类任务迈向多维度语义一致性检验的重要跨越，为生物多样性监测领域的可复现AI评估奠定了基础设施。

当前挑战

该数据集所应对的核心领域挑战在于，长时声学监测中鸟类声音语义表征的压缩与检索需同时满足生态学精度与计算效率，而现有基准多聚焦于帧级检测，缺乏对语义保真度的系统度量。构建过程中，研究者需解决专家标注与大规模声学数据之间的时空异质性，仅保留805个重叠专家记录的严格子集以平衡标注质量与覆盖范围；同时，容量约61GB的源音频重建面临存储与分发瓶颈，需设计双层可复现路径，将冻结特征表作为轻量级审阅包，并依托清单驱动的下载机制实现原始音频的按需恢复，避免超出平台限制的数据冗余。

常用场景

经典使用场景

在生物声学与生态监测交叉领域，CB-Telemetry数据集被设计为评估长周期鸟声监测系统中语义保真度的基准标杆。其经典使用场景聚焦于对音频表征学习模型进行标准化评测，通过提供冻结的专家监听记录、配对的特征表与严格划分的Default和Strict-Clean元数据分割，研究者可系统性地检验不同编码器（如Perch、BirdNET）所提取的声学特征在检索任务与标签匹配中的语义保留能力。该数据集尤以两阶段可重复性框架著称，使审稿人无需GPU或深度学习框架即可通过CPU快速复现核心指标，而进阶用户则能通过完整音频重建路径验证特征再生与瓶颈压缩的效能。这一设计既保障了基准对比的公平性，又兼顾了科研复现的门槛与深度实验的灵活性。

衍生相关工作

围绕CB-Telemetry衍生出一系列深化声学生态AI理论的前沿工作。基于其双层可复现架构，研究者发展出面向负样本挖掘的元数据控制检索框架，通过系统扰动标签-特征对齐来诊断模型对背景声学线索（如汽车轰鸣、人类言语）的虚假相关性依赖。在表征学习方向，该数据集启发了对感知量化瓶颈（如RVQ）与端到端变分自编码器在鸟声压缩保真度上的比较研究，催生了融合信息瓶颈理论与生态学先验的正则化损失函数设计。更进一步，有工作利用其805条专家重叠记录构建了不确定性感知的增量式标注传播算法，有效缓解了被动监测中人工标注稀疏与模型漂移之间的矛盾。这些探索不仅验证了CB-Telemetry的设计哲学，更将语义保真度评估从鸟类声学推广至更广义的生态舆情监测系统，形成了以可复现基准撬动应用理论创新的良性循环。

数据集最近研究