five

BuzzSet-v1.0

收藏
Hugging Face2025-08-28 更新2026-04-23 收录
下载链接:
https://huggingface.co/datasets/Ahmedemam576/BuzzSet-v1.0
下载链接
链接失效反馈
官方服务:
资源简介:
BuzzSet v1.0是一个面向计算机视觉用于生物多样性研究、小目标检测和生态监测的昆虫传粉者检测基准数据集。它包含7856张RGB图像(4608×3456像素),分为256×256像素的块以用于模型训练,并提供了大约8000个标注的实例,分为蜜蜂、黄蜂和无法识别的三个类别。
创建时间:
2025-08-27
原始信息汇总

BuzzSet v1.0 数据集概述

基本信息

  • 许可证:CC-BY-4.0
  • 语言:英语
  • 标签:计算机视觉、目标检测、传粉者、生态学、农业、小目标检测
  • 数据集名称:BuzzSet
  • 规模类别:1K<n<10K
  • 任务类别:目标检测

数据集描述

BuzzSet v1.0 是一个用于在真实农业条件下检测昆虫传粉者的基准数据集,支持计算机视觉生物多样性、小目标检测和生态监测研究。

数据规模

  • 图像数量:7,856 张 RGB 图像(4608×3456 像素)
  • 标注格式:边界框(YOLO 和 COCO 格式)
  • 实例数量:约 8,000
  • 类别
    • 蜜蜂
    • 熊蜂
    • 未识别(模糊情况)

数据划分

  • 训练集:6,575 张图像
  • 验证集:1,281 张图像

应用场景

  • 自动化传粉者监测
  • 自然场景中的小目标检测
  • 农业生态人工智能应用

数据采集

图像在玉米花间作实验期间使用静态相机在传粉者活动高峰期(11:00-15:00)采集,分辨率为 4608×3456 像素,地面采样距离约为 0.5 毫米。

标注过程

  • 初始标签来自基于公共传粉者数据训练的 YOLOv12
  • 使用 OpenLabeling 进行人工验证
  • 不确定案例归类为"未识别"

性能基线

在 BuzzSet 上训练的 RF-DETR 模型表现:

  • mAP@0.50:0.559
  • mAP@0.50:0.95:0.319
  • F1 分数:蜜蜂(0.94)、熊蜂(0.92)、未识别(0.31)

引用信息

如需引用该数据集,请使用: @misc{emam2025buzzsetv10datasetpollinator, title={BuzzSet v1.0: A Dataset for Pollinator Detection in Field Conditions}, author={Ahmed Emam and Mohamed Elbassiouny and Julius Miller and Patrick Donworth and Sabine Seidel and Ribana Roscher}, year={2025}, eprint={2508.19762}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.19762} }

数据加载

python from datasets import load_dataset dataset = load_dataset("ahmedemam576/BuzzSet-v1.0")

搜集汇总
数据集介绍
main_image_url
构建方式
在农业生态监测领域,BuzzSet-v1.0数据集通过静态相机在玉米-花卉间作试验田中采集图像,拍摄时段集中于传粉昆虫活动高峰期(11:00至15:00)。原始图像分辨率为4608×3456像素,地面采样距离约0.5毫米,确保了细小目标的清晰捕捉。标注流程采用半自动化方法:首先基于公开传粉昆虫数据训练的YOLOv12模型生成初始标签,再通过OpenLabeling工具进行人工验证,并将难以辨别的案例归类为'未识别'类别,最终形成包含约8000个实例的精细化标注数据集。
特点
该数据集涵盖7856张高分辨率RGB图像,均被裁剪为256×256像素的标准化图块以适应模型训练需求。其核心特点体现在对小目标检测任务的深度支持,具体包含三个精细分类:蜜蜂、熊蜂及未识别类别,有效反映了自然环境中传粉昆虫的真实分布状况。数据划分科学合理,训练集包含6575张图像,验证集1281张图像,为模型性能评估提供可靠基准。数据集采用YOLO和COCO两种标注格式,兼顾不同算法框架的应用需求。
使用方法
研究人员可通过Hugging Face数据集库直接加载使用,调用load_dataset('ahmedemam576/BuzzSet-v1.0')即可获取标准化数据。该数据集主要服务于农业生态监测中的传粉昆虫自动识别、自然场景小目标检测等计算机视觉任务。基于RF-DETR模型的基准测试显示,在mAP@0.50指标上达到0.559,各类别的F1分数分别为蜜蜂0.94、熊蜂0.92、未识别类别0.31,为后续研究提供了可参照的性能基线。
背景与挑战
背景概述
在农业生态监测领域,传粉昆虫的精准识别对生物多样性保护具有重要意义。BuzzSet v1.0数据集由Ahmed Emam等研究者于2025年创建,旨在通过计算机视觉技术解决自然环境下传粉昆虫检测的难题。该数据集由德国波恩大学等机构联合开发,包含7,856张高分辨率田间图像,重点关注蜜蜂与熊蜂两类关键传粉者的识别,为生态学与农业智能监测提供了重要的数据基础。
当前挑战
该数据集主要应对自然环境下小目标检测的三大挑战:传粉昆虫体积微小且与背景高度融合导致的识别困难,田间环境光照变化与遮挡造成的检测干扰,以及相似物种间形态特征差异微弱带来的分类歧义。在构建过程中,研究团队面临野外数据采集设备部署的工程挑战,初始自动标注结果需要大量人工校验,特别是对形态特征模糊的个体需谨慎归类为未识别类别,这些因素显著增加了数据标注的复杂度与时间成本。
常用场景
经典使用场景
在农业生态监测领域,BuzzSet-v1.0数据集为传粉昆虫检测提供了标准化基准。研究者利用其高分辨率图像和精细标注,开发计算机视觉模型以识别自然场景中的蜜蜂与熊蜂等小型目标,特别适用于复杂田间环境下的生物多样性监测任务。该数据集通过提供真实农业场景的视觉数据,推动了精准生态学研究的发展。
实际应用
在实际应用中,该数据集支撑的智能监测系统可部署于农业生产现场,实现传粉昆虫活动的自动化记录与分析。这些系统能够帮助农户评估作物授粉状况,优化种植管理策略,同时为生态学家提供长期、大规模的生物多样性监测数据,促进智慧农业与生态保护的深度融合。
衍生相关工作
基于BuzzSet-v1.0数据集,研究者已开发出多种先进的检测模型,如RF-DETR等架构在传粉昆虫识别任务上取得了显著进展。这些工作不仅提升了小目标检测的技术水平,还催生了跨学科合作,推动了计算机视觉与生态学、农学等领域的融合创新,为后续研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作