five

open-insect

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/yuyan-chen/open-insect
下载链接
链接失效反馈
官方服务:
资源简介:
Open-Insect数据集旨在评估生物多样性监测中新物种的开放集识别能力,特别关注昆虫。该数据集由三个区域的元数据和原始图像链接组成:东北北美洲、西欧和中美洲。每个区域都包含分布内数据、分布外数据和辅助数据。中美洲区域还包括了来自巴罗科罗拉多岛的197张新图像。
创建时间:
2025-10-16
原始信息汇总

Open-Insect数据集概述

数据集简介

Open-Insect是一个用于基准测试生物多样性监测中新型物种开放集识别的数据集,主要关注昆虫物种。该数据集包含指向图像文件的URL链接以及相关元数据。

数据集配置

数据集包含三个地理区域的配置:

  • 北美东北部(ne-america)
  • 西欧(w-europe)
  • 中美洲(c-america)

数据分割

每个区域包含以下数据分割:

分布内数据

  • train_id:训练集
  • val_id:验证集
  • test_id:测试集

辅助数据

  • train_aux:训练辅助数据
  • val_aux:验证辅助数据

分布外数据

  • test_ood_local:局部分布外测试集
  • test_ood_non_local:非局部分布外测试集
  • test_ood_non_moth:非蛾类分布外测试集

数据来源

  • 分布内数据来源于AMI数据集(MIT许可证)
  • 分布外和辅助数据来源于全球生物多样性信息机构(GBIF)
  • 中美洲区域额外包含197张来自巴拿马巴罗科罗拉多岛的新收集图像

文件结构

数据集采用CSV文件格式组织,每个区域包含8个数据分割文件。

许可证信息

  • 数据集整体采用CC-BY-NC-SA-4.0许可证
  • 图像数据遵循多种开放许可证(CC BY 4.0、CC BY-NC 4.0、CC BY-NC-SA 4.0、CC0 1.0、CC BY-SA 4.0等)
  • 用户需遵守各图像对应的单独许可证条款

相关资源

  • 下载脚本:https://github.com/RolnickLab/Open-Insect/blob/main/download.sh
  • BCI补充数据集:https://huggingface.co/datasets/yuyan-chen/open-insect-bci
  • AMI数据集来源:https://zenodo.org/records/11358689
搜集汇总
数据集介绍
main_image_url
构建方式
在生物多样性监测领域,Open-Insect数据集通过整合全球生物多样性信息机构(GBIF)的公开数据资源构建而成。该数据集以AMI数据集为基础框架,系统采集了北美东北部、西欧和中美洲三个地理区域的昆虫图像元数据,包含图像链接、经纬度坐标和物种分类标签等关键信息。特别值得关注的是,针对中美洲区域额外补充了巴拿马巴罗科罗拉多岛最新采集的197幅图像样本,其中包含59个尚未被科学描述的潜在新物种,为开放集识别研究提供了极具现实意义的测试场景。
特点
该数据集在结构设计上展现出鲜明的区域化特征,将样本按地理分布划分为三个独立配置。每个区域配置均包含分布内训练集、验证集和测试集,同时设置了局部分布外、非局部分布外以及非蛾类分布外三种不同类型的开放集测试场景。数据样本附带丰富的元数据信息,包括GBIF物种密钥和地理坐标等生态学特征。特别构建的BCI分布外测试集模拟了真实野外调查中可能遭遇的未知物种识别挑战,为生物多样性监测算法的鲁棒性评估提供了理想平台。
使用方法
研究人员可通过官方提供的下载脚本获取完整的元数据文件及原始图像资源。数据集采用标准化的CSV格式组织,用户可根据研究需求选择特定地理区域配置进行加载。在模型训练阶段,建议分别利用分布内数据和辅助数据优化分类器性能;评估阶段则可通过三类分布外测试集全面检验模型对未知物种的识别能力。使用过程中需特别注意遵守各类图像对应的开源许可协议,确保符合CC-BY-NC-SA-4.0等许可证的规范要求。
背景与挑战
背景概述
Open-Insect数据集由RolnickLab团队构建,旨在推动生物多样性监测中昆虫物种开放集识别的研究。该数据集整合了全球生物多样性信息机构(GBIF)的图像元数据,并基于AMI数据集扩展,覆盖北美东北部、西欧和中美洲三个地理区域。其核心研究问题聚焦于开发能够识别未知昆虫物种的机器学习模型,以应对全球生物多样性快速衰退的严峻挑战,为生态保护和物种发现提供关键技术支持。
当前挑战
该数据集面临双重挑战:在领域问题层面,开放集识别要求模型区分已知物种与未知新物种,而昆虫形态多样性和地理变异加剧了分类难度;在构建过程中,数据来源于多授权协议的GBIF平台,需协调不同许可条款,同时巴拿马巴罗科罗拉多岛的新采集样本包含大量未描述物种,标注工作依赖专业分类学知识,增加了数据质量控制复杂度。
常用场景
经典使用场景
在生物多样性监测领域,Open-Insect数据集被广泛用于评估开放集识别模型的性能,特别是在昆虫物种分类任务中。该数据集通过整合北美东北部、西欧和中美洲三个地理区域的昆虫图像数据,构建了包含分布内样本与多种分布外样本的测试环境。研究人员利用其精心设计的训练集、验证集及测试集划分,系统验证模型对已知物种的分类能力以及对未知物种的泛化识别效果,为生态学中的物种发现提供了可靠基准。
解决学术问题
该数据集有效解决了计算机视觉与生态学交叉领域中的关键挑战——如何在真实监测场景中识别尚未被科学描述的昆虫物种。通过引入巴罗科罗拉多岛采集的包含59个潜在新物种的图像数据,它突破了传统封闭集分类的局限,为开放集识别、领域自适应等前沿研究方向提供了标准化测试平台。其多层次分布外数据划分显著提升了模型在复杂生态环境中的鲁棒性评估精度,推动了智能监测技术的理论发展。
衍生相关工作
该数据集已催生多项创新性研究,包括基于元学习的新型物种发现框架和面向长尾分布的深度识别算法。部分研究通过融合多区域辅助数据提出了跨地理域的迁移学习方案,显著提升了模型在未探索地区的泛化能力。此外,结合GBIF平台生态元数据的多模态学习方法也成为衍生方向之一,这些工作共同推动了开放环境下的智能生态监测技术体系演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作