five

open-insect

收藏
Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/anonymous987654356789/open-insect
下载链接
链接失效反馈
官方服务:
资源简介:
Open-Insect数据集包含来自北美洲东北部、西欧和中美洲的昆虫数据。数据集分为三个配置,每个配置都包含训练集、验证集和测试集,测试集进一步细分为id、ood_local、ood_non_local和ood_non_moth等部分,用于训练和评估昆虫识别模型。数据集遵循cc-by-nc-nd-4.0许可。
创建时间:
2025-05-13
原始信息汇总

Open-Insect数据集概述

数据集描述

  • 目的:用于生物多样性监测中新物种的开放集识别基准测试,重点关注昆虫。
  • 内容:包含指向全球生物多样性信息机构(GBIF)图像文件的URL以及分类信息(GBIF speciesKey、species、genus和family name)。
  • 基础:部分基于AMI数据集的子集构建。

数据集配置与划分

包含3个地理区域的昆虫图像:

  1. 北美东北部(ne-america)
  2. 西欧(w-europe)
  3. 中美洲(c-america)

分布内(ID)数据集

  • 来源:AMI数据集(MIT许可)
  • 包含:
    • train_id
    • val_id
    • test_id

分布外(OOD)和辅助数据

数据集结构

Open-Insect ├── c-america │   ├── test_id.csv │   ├── test_ood_local.csv │   ├── test_ood_non-local.csv │   ├── test_ood_non-moth.csv │   ├── train_aux.csv │   ├── train_id.csv │   ├── val_id.csv │   └── val_ood.csv ├── ne-america │   ├── test_id.csv │   ├── test_ood_local.csv │   ├── test_ood_non-local.csv │   ├── test_ood_non-moth.csv │   ├── train_aux.csv │   ├── train_id.csv │   ├── val_id.csv │   └── val_ood.csv ├── README.md └── w-europe ├── test_id.csv ├── test_ood_local.csv ├── test_ood_non-local.csv ├── test_ood_non-moth.csv ├── train_aux.csv ├── train_id.csv ├── val_id.csv └── val_ood.csv

许可与归属

  • AMI数据集部分:MIT许可(原始许可文件位于third_party/AMI/LICENSE
  • 新增数据部分:CC BY-NC-ND 4.0许可
搜集汇总
数据集介绍
main_image_url
构建方式
Open-Insect数据集专注于生物多样性监测中的昆虫物种开放集识别,其构建过程体现了严谨的科学方法。数据集整合了来自全球生物多样性信息设施(GBIF)的图像URL及物种分类信息,并部分基于AMI数据集的子集。通过精选北美东北部、西欧和中美洲三个地理区域的昆虫图像,构建了包含分布内数据和分布外数据的多层次结构。分布内数据直接来源于AMI数据集,分布外数据则通过GBIF平台获取,确保了数据来源的多样性和权威性。
特点
该数据集在生物多样性研究领域具有显著特色,其核心价值在于支持开放集识别任务。数据集按地理区域划分,每个区域包含训练、验证和测试集,并细分为分布内数据和多种类型的分布外数据,为模型评估提供了丰富场景。数据集中不仅包含图像元数据,还整合了物种分类学信息,如物种键、科属名称等,为多模态研究创造了条件。所有数据均标注了原始许可协议,体现了对知识产权的尊重。
使用方法
使用Open-Insect数据集时需遵循其分层结构设计。研究人员可根据需要选择特定地理区域的数据进行实验,通过train_id进行模型训练,val_id和val_ood用于超参数调优,各类test_split则用于全面评估模型性能。由于数据集仅提供图像URL,实际使用前需按相应许可条款下载图像。对于分布外数据的处理,建议参考数据集文档中关于ood_local、ood_non_local等类别的定义,以正确理解数据分布差异。
背景与挑战
背景概述
Open-Insect数据集是为生物多样性监测中的新物种开放集识别而设计的基准数据集,专注于昆虫分类领域。该数据集由全球生物多样性信息机构(GBIF)的图像文件URL以及包括GBIF物种关键信息、物种、属和科名在内的分类学信息构成。其部分数据基于AMI数据集的子集构建,旨在推动开放集识别技术在生态学和生物多样性研究中的应用。该数据集涵盖东北北美、西欧和中美洲三个地理区域的昆虫图像,为研究跨地域物种分布和分类提供了重要资源。
当前挑战
Open-Insect数据集面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,开放集识别任务本身具有较高的复杂性,尤其是在生物多样性监测中,新物种的识别需要模型具备强大的泛化能力和对未知类别的鲁棒性。数据集中的非本地和非蛾类分布外样本进一步增加了分类难度。在构建过程中,数据收集面临地理分布广泛性和物种多样性的挑战,同时需要处理来自不同来源的图像的版权许可问题,确保数据使用的合规性。此外,数据标注的准确性和一致性也是构建过程中的关键挑战,特别是在处理大量物种的分类学信息时。
常用场景
经典使用场景
在生物多样性监测领域,Open-Insect数据集为昆虫物种的开放集识别提供了标准化评估平台。该数据集通过整合北美东北部、西欧和中美洲三个地理区域的昆虫图像数据,支持研究者构建跨地域的物种识别模型。其精心设计的分布内数据和分布外数据划分,尤其适合用于测试模型在遇到未知物种时的泛化能力。
解决学术问题
该数据集有效解决了生物多样性监测中的关键学术挑战——如何准确识别已知物种的同时检测新物种。通过提供多区域的分布外样本,它支持开放集识别算法的开发,推动计算机视觉在生态学中的应用。数据集的层级分类信息(科、属、种)为细粒度分类研究提供了丰富标签,其跨区域特性则有助于研究地理分布对模型性能的影响。
衍生相关工作
基于Open-Insect的经典研究包括跨区域物种迁移学习框架的构建,以及新型开放集识别损失函数的提出。部分工作探索了多任务学习策略,同时优化物种分类和新物种检测。该数据集也催生了若干针对长尾分布的采样方法,因其层级分类特性促进了层次化分类模型的发展,相关成果发表在ECCV等顶级会议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作